﻿Programare cu pitorh Jan Pointer Programarea PyTorch pentru Deep Learning Crearea și implementarea aplicațiilor de Deep Learning Ian Pointer Beijing • Boston • Farnham • Sebastopol • Tokyo O'REILLY(r) Programare cu pitorh Construirea de aplicații de învățare profundă Jan Pointer PETRU' Sankt Petersburg * Moscova * Ekaterinburg * Voronezh Nijni Novgorod * Rostov-pe-Don Samara • Minsk BBK - UDC P Indicatorul Jan P Programare cu PyTorch: Construirea de aplicații de învățare profundă - Sankt Petersburg: Peter, - p : ill - (Seria O'Reilly Bestsellers) ISBN - - - - PyTorch este un cadru open source de la Facebook Aflați cum să-l utilizați pentru a vă crea propriile rețele neuronale Ian Pointer vă va ajuta să înțelegeți cum să configurați PyTorch în cloud, cum să creați arhitecturi neuronale care să faciliteze lucrul cu imagini, sunet și text Cartea acoperă conceptele esențiale ale învățării prin transfer, modelul de depanare și utilizarea bibliotecii PyTorch O sa inveti: • Aduceți modele de deep learning la lucru • Utilizați PyTorch în proiecte mari • Aplicați învățarea prin transfer • Utilizați modelele torchaudio și convoluționale PyTorch pentru a clasifica datele audio • Aplicați tehnici NLP de ultimă generație folosind un model instruit pe Wikipedia • Efectuați depanarea modelelor PyTorch cu TensorBoard și flamegraph • Implementați aplicații PyTorch în containere "PyTorch este una dintre bibliotecile de deep learning cu cea mai rapidă creștere, rivalizând aproape la egalitate cu gigantul Google TensorFlow Cartea ar trebui să devină cu siguranță un desktop pentru fiecare programator și dezvoltator de algoritmi de învățare automată care doresc să folosească PyTorch în munca lor Ankur Patel, Vicepreședinte Data Science la Park Data Ian Pointer este un inginer de date care construiește soluții de învățare automată pentru clienții Fortune În prezent lucrează la Lucidworks, unde dezvoltă aplicații și design-uri NLP + (În conformitate cu Legea federală din decembrie nr -FZ ) BBK - UDC Drepturi de publicare obținute prin acord cu O'Reilly Toate drepturile rezervate Nicio parte a acestei cărți nu poate fi reprodusă sub nicio formă fără permisiunea scrisă a deținătorilor drepturilor de autor Informațiile conținute în această carte au fost obținute din surse considerate de către editor a fi de încredere Totuși, având în vedere eventualele erori umane sau tehnice, editorul nu poate garanta acuratețea și caracterul complet al informațiilor furnizate și nu este responsabil pentru eventualele erori asociate cu utilizarea cărții Editorul nu este responsabil pentru disponibilitatea materialelor la care se face referire în această carte La momentul pregătirii cărții pentru publicare, toate linkurile către resursele de pe Internet erau valabile ISBN - Traducere autorizată în rusă a ediției în limba engleză a programului Programming PyTorch for Deep Learning ISBN (c) lan Pointer Această traducere este publicată și vândută cu permisiunea O'Reilly Media, Inc , care deține sau controlează toate drepturile de a publica și vinde aceeași traducere ISBN - - - - (c) Traducere în rusă Editura LLC "Piter", (c) Ediție în limba rusă, proiectată de Editura Piter LLC, (c) Seria O'Reilly Bestseller, REZUMAT CAPITOLUL ÎNCEPEREA CU PYTORCH CAPITOLUL CLASIFICAREA IMAGINILOR UTILIZAREA PYTORCH CAPITOLUL CAPITOLUL TRANSFERUL ÎNVĂŢĂRII ŞI ALTE TOCURI CAPITOLUL CLASIFICAREA TEXTULUI CAPITOLUL O CĂLĂTORIE ÎN LUMEA SUNETĂRII CAPITOLUL DEBUGAREA MODELELOR PYTORCH CAPITOLUL PYTORH ÎN MEDIUL DE MUNCĂ CAPITOLUL CUPRINS REZUMAT CUVÂNT ÎNAINTE Învățare profundă în lumea modernă Ce este învățarea profundă și aveți nevoie de un doctorat pentru a o înțelege? PyTorch Dar TensorFlow? Convenții tipografice Utilizarea eșantioanelor de cod Mulțumiri De la editor CAPITOLUL ÎNCEPEREA CU PYTORCH Construirea unui computer de învățare profundă GPU CPU/placa de baza RAM Depozitare Învățare profundă în cloud Serviciul cloud Google Colaboratory Furnizori de cloud Ce furnizor de cloud ar trebui să folosesc? Utilizarea Jupyter Notebook Instalarea PyTorch de la zero Descărcarea CUDA Anaconda Cuprins Și în sfârșit, PyTorch! (și Jupyter Notebook) Tensori Operații cu tensori Traducerea unui tensor Concluzie Informații suplimentare CAPITOLUL CLASIFICAREA IMAGINILOR UTILIZAREA PYTORCH Problema clasificării Dificultăți standard Dar mai întâi, datele PyTorch și încărcătoare de date Crearea unui set de date de antrenament Seturi de date de validare și control Și, în sfârșit, rețeaua neuronală! Funcții de activare Crearea unei rețele neuronale Funcţii de pierdere Optimizare Instruire Funcționarea GPU Adunarea totul laolaltă Prognoza Salvarea unui model Concluzie Resurse suplimentare CAPITOLUL Primul model convoluțional Convoluții Reducerea eșantionării Diluare sau abandon Cuprins Istoria arhitecturii CNN bb AlexNet bb Inception/GoogleNet VGG ResNet Sunt disponibile și alte arhitecturi! Utilizarea modelelor preantrenate în PyTorch Examinarea structurii modelului Normalizare lot (BatchNorm) Ce model ar trebui să folosesc? Achiziții necesare: PyTorch Hub Concluzie Resurse suplimentare CAPITOLUL TRANSFERUL ÎNVĂȚĂRII ȘI ALTE TOCURI Transferați învățarea cu ResNet Calculul ratei de învățare Rată de învățare diferențială Mărirea datelor Conversii Torchvision Spațiul de culoare și transformarea Lambda Clase de transformare personalizate Începeți cu mai puțin și obțineți mai mult! Ansambluri Concluzie Resurse suplimentare CAPITOLUL CLASIFICAREA TEXTULUI Rețele neuronale recurente Rețele cu memorie de lungă durată Blocuri recurente controlate biLSTM Cuprins Înglobări text torță Preluarea datelor noastre: Tweeturi! Definirea câmpurilor Construirea unui dicționar Crearea unui model Actualizarea ciclului de învățare Clasificare Tweet Mărirea datelor Lipire aleatorie Ștergerea accidentală Permutarea aleatorie Traducere inversă Augmentation and torchtext Transferarea antrenamentului? Concluzie Resurse suplimentare CAPITOLUL O CĂLĂTORIE ÎN LUMEA SUNETĂRII Sunetul Setul de date ESC- Preluarea unui set de date Redarea sunetului în Jupyter Explorarea datelor ESC- SoX și LibROSA torchaudio Crearea unui set de date ESC- Modelul CNN pentru setul de date ESC- Frecvența este universul meu Spectrograme cretă Set de date nou Apariția ResNet Determinarea ratei de învățare Cuprins Augmentarea datelor audio Torchaudio Conversii Efecte SoX SpecAugment Noi experimente Concluzie Resurse suplimentare CAPITOLUL DEBUGAREA MODELELOR PYTORCH Ora trei noaptea Ce fac datele tale? TensorBoard Instalarea TensorBoard Trimiterea datelor către TensorBoard Cârlige PyTorch Trasarea mediei și a deviației standard Carduri de activare a clasei Flamegraphs Instalarea py-spy Citirea Flamegraphs Rezolvarea problemei transformării lente Probleme de depanare a GPU-ului Verificarea GPU-ului Crearea gradientului punctelor de control Concluzie Resurse suplimentare CAPITOLUL PYTORH ÎN MEDIUL DE MUNCĂ Menținerea modelului Construirea unui serviciu Flask Ajustarea opțiunilor modelului Construirea unui container Docker Stocare locală și în cloud Înregistrare și telemetrie Cuprins Implementarea în Kubernetes Instalarea pe Google Kubernetes Engine Crearea unui cluster k s Servicii Zoom Actualizări și curățare TorchScript Dirijare Executarea scripturilor Restricţii TorchScript Lucrul cu libTorch Obținerea libTorch și Hello World Importarea unui model TorchScript Concluzie Resurse suplimentare CAPITOLUL Mărirea datelor: amestecat și netezit amestecare Netezirea marcajului Upgrade computer! O introducere în ultra-rezoluție Introducere în GAN-uri Falsificatorul şi criticul Training GAN Colapsul modului de distribuție ESRGAN TJ Lansarea ESRGAN TJ Noi aventuri în recunoașterea modelelor Detectarea obiectelor R-CNN mai rapid și Mask R-CNN Mostre de concurs Flash-Back-Attacks Apărarea împotriva atacurilor adverse Cuprins Mai mult decât se vede: Arhitectura transformatorului Mecanisme de atenţie Este nevoie doar de atenție BERT FastBERT GPT- Generarea textului cu GPT- ULM HT Ce să alegi? Concluzie Resurse suplimentare DESPRE AUTOR DESPRE COPERTĂ CUVÂNT ÎNAINTE Învățare profundă în lumea modernă Salutare tuturor! În această carte, vă voi ghida prin deep learning în PyTorch, o bibliotecă open source lansată de Facebook în Cu excepția cazului în care locuiți pe o insulă pustie, probabil ați observat că rețelele neuronale sunt peste tot în zilele noastre Au încetat să mai fie un fel de super parte a informaticii, pe care noi le studiem și nu le folosim în niciun fel: există rețele neuronale, de exemplu, în smartphone-urile noastre Cu ajutorul lor, îmbunătățim fotografiile sau dăm comenzi vocale Software-ul de e-mail citește e-mailurile și răspunde în mod corespunzător la context, difuzoarele inteligente ne ascultă, mașinile conduc singure, iar computerul a depășit în sfârșit oamenii în Go Și, de exemplu, în țările autoritare, această tehnologie nu este folosită pentru cele mai bune lucruri: sistemele bazate pe rețele neuronale recunosc fețele și iau decizii cu privire la reținerea acestor oameni Și totuși, în ciuda sentimentului că totul s-a întâmplat atât de repede, conceptele de învățare profundă și rețele neuronale sunt un lucru din trecutul îndepărtat Dovada că o astfel de rețea poate fi un substitut pentru orice funcție de aproximare matematică (rețelele neuronale pot fi antrenate pentru multe sarcini diferite) datează din , iar la sfârșitul anilor , rețelele neuronale convoluționale au fost folosite pentru a recunoaște cifrele de control În tot acest timp s-a construit o fundație solidă, dar de ce s-a produs boom-ul în ultimii zece ani? Vezi "Aproximarea prin suprapunere a funcțiilor sigmoidale", George Cybenko ( ), Învățare profundă în lumea modernă Există multe motive, dar principalul este creșterea performanței unității de procesare grafică (GPU) și a accesibilității Proiectate inițial pentru jocuri, GPU-urile trebuie să efectueze milioane de operații matrice pe secundă pentru a reda toate poligoanele unui joc de curse sau de împușcături pe care îl jucați pe o consolă sau un computer - operațiuni pe care pur și simplu nu este proiectată o unitate centrală de procesare (CPU) standard pentru În "Large-Scale Deep Unsupervised Learning Using Graphics Processors", pe care Rajat Raina a scris-o împreună cu alți autori, se observă că antrenamentul rețelelor neuronale se bazează și pe efectuarea multor operațiuni pe matrice și, prin urmare, plăcile video suplimentare pot fi folosite pentru a accelera învățarea, precum și pentru a crea arhitecturi de rețele neuronale mai mari și mai profunde Alte tehnici importante, cum ar fi subțierea sau abandonul (pe care le vom explora în capitolul ), au fost introduse și în ultimul deceniu ca o modalitate nu numai de a accelera învățarea, ci și de a o generaliza (astfel încât rețeaua nu învață doar să recunoască setul de date de antrenament, așa cum este cazul problemei supraajustării, despre care vom discuta în capitolul ) În ultimii câțiva ani, companiile au dus această abordare bazată pe GPU la următorul nivel, iar Google a creat ceea ce numește Tensor Processing Units (TPU), care sunt dispozitive concepute special pentru a face învățarea profundă cât mai rapidă posibil Sunt disponibile ca parte a ecosistemului Google Cloud O altă modalitate de a evalua progresul în învățarea profundă în ultimul deceniu este concurența ImageNet O bază de date extinsă de peste milioane de imagini împărțite manual în de categorii, ImageNet este o comoară de date etichetate în scopuri de învățare automată Din , proiectul TmageNet Large Scale Visual Recognition Challenge este în derulare - o campanie pentru recunoașterea modelelor la scară largă Cuvânt înainte în ImageNet, în care diverse produse software concurează anual în clasificarea și recunoașterea obiectelor și scenelor într-o bază de date de mii de categorii ImageNet, iar până în , rata de eroare a fost de aproximativ % Cu toate acestea, Deep Convolutional Neural Network a câștigat anul respectiv, depășind cu mult toți ceilalți participanți, cu o rată de eroare de % În anii următori, rata de eroare a scăzut din ce în ce mai mult, iar în , arhitectura ResNet a obținut un scor de , %, depășind scorul uman mediu ImageNet de % Am fost ocoliți Ce este învățarea profundă și aveți nevoie de un doctorat pentru a o înțelege? Definiția învățării profunde este ceva mai complicată decât pare După o definiție, învățarea profundă este o tehnică de învățare automată care utilizează straturi numeroase și multiple de transformări neliniare pentru a extrage progresiv caracteristici din datele brute de intrare Desigur, este, dar nu devine mai clar, nu? Prefer să descriu învățarea profundă ca o tehnică de rezolvare a problemelor care oferă intrare și ieșire și permite unui computer să găsească o soluție folosind o rețea neuronală Matematica este ceea ce sperie mulți oameni când vine vorba de învățare profundă Priviți orice lucrare în acest domeniu și veți vedea un număr mare de litere grecești Cel mai probabil, vei începe să alergi fără să te uiți înapoi Dar nu este nevoie de un geniu pentru a folosi tehnici de învățare profundă Pentru majoritatea aplicațiilor de bază ale tehnologiei de zi cu zi, nu trebuie să știți prea multe și pentru a le înțelege cu adevărat (după cum veți vedea în capitolul ), trebuie doar să vă pregătiți puțin Acest lucru vă va ajuta să înțelegeți concepte pe care probabil le-ați învățat în liceu Așa că nu vă fie frică de matematică Ce este învățarea profundă Până la sfârșitul capitolului , veți putea construi un clasificator de imagini în doar câteva linii de cod, care rivalizează cu cele mai bune minți din PyTorch După cum am spus mai devreme, PyTorch este o ofertă open source de la Facebook, care facilitează scrierea codului pentru învățarea profundă în Python Are doi "părinți" În primul rând, și deloc surprinzător având în vedere numele său, a împrumutat o mulțime de caracteristici și concepte de la Torch, o bibliotecă de rețele neuronale bazată pe Lua, care a apărut în Un alt "părinte" este Chainer, dezvoltat în Japonia în Chainer a fost una dintre primele biblioteci care a oferit o abordare viguroasă a diferențierii în loc să definească grafice statice, permițând mai multă flexibilitate în construirea, instruirea și operarea rețelelor Moștenirea Torch și ideile Chainer au făcut PyTorch popular în ultimii doi ani Biblioteca conține, de asemenea, module care ajută la lucrul cu text, imagini și sunet (torchtext, torchvision și torchaudio), precum și variante încorporate ale arhitecturilor comune, cum ar fi ResNet (cu greutăți care pot fi descărcate pentru a facilita lucrul) cu învățare prin transfer, despre care veți afla) în capitolul ) La fel ca Facebook, PyTorch a câștigat rapid acceptarea, companii precum Twitter, Salesforce, Uber și NVIDIA folosindu-l într-o varietate de moduri pentru învățare profundă stiu ce vrei sa intrebi Dar TensorFlow? Da, să ne uităm la un elefant foarte proeminent de la Google Ce oferă PyTorch și nu TensorFlow? De ce ar trebui să înveți PyTorch? Vă rugăm să rețineți că PyTorch împrumută numai idei Chainer, nu codul real Cuvânt înainte Răspunsul este că TensorFlow tradițional funcționează diferit decât PyTorch, ceea ce afectează foarte mult codarea și depanarea TensorFlow folosește o bibliotecă pentru a construi o reprezentare grafică a unei arhitecturi de rețea neuronală și apoi efectuează operațiuni pe acel grafic în cadrul bibliotecii TensorFlow Această metodă de programare declarativă este oarecum în contradicție cu paradigma Python mai imperativă, ceea ce înseamnă că programele Python TensorFlow pot părea ciudat și greu de înțeles O altă problemă este că declararea unui grafic static poate face schimbarea dinamică a arhitecturii în timpul antrenamentului și timpului de inferență mult mai complicată și mai simplă decât în PyTorch Prin urmare, PyTorch a devenit popular în comunitățile de cercetare Numărul de lucrări depuse la Conferința Internațională de Învățare care menționează PyTorch a crescut cu % în ultimul an, iar numărul de lucrări care menționează TensorFlow a crescut aproape în egală măsură PyTorch este cu siguranță aici pentru a rămâne Cu toate acestea, lucrurile se schimbă în versiunile ulterioare ale TensorFlow Recent, la bibliotecă a fost adăugată o nouă caracteristică numită eager execution, care îi permite să funcționeze într-un mod similar cu PyTorch și va reprezenta paradigma suportată în TensorFlow Și din moment ce nu există atât de multe resurse noi în afară de Google care să vă ajute să învățați acest nou mod de a lucra cu TensorFlow, va fi nevoie de ani de muncă pentru a înțelege o altă paradigmă și a profita la maximum de bibliotecă Dar acesta nu este un motiv să te simți prost pentru TensorFlow; rămâne o bibliotecă dovedită, susținută de una dintre cele mai mari companii de pe planetă Aș susține că PyTorch (întreținut de o altă companie importantă) are o abordare mai optimizată și mai concentrată asupra învățării profunde și a programării diferențiate Deoarece nu trebuie să continue să susțină API-uri mai vechi și mai complexe, PyTorch este mai ușor de învățat și de lucrat decât TensorFlow Cum se potrivește Keras aici? De asemenea, o întrebare bună! Keras este o bibliotecă de învățare profundă la nivel înalt care a acceptat inițial Theano și TensorFlow și acum acceptă și alte cadre precum Apache MXNet Oferă anumite caracteristici, cum ar fi bucle de învățare, validare și testare, Dar TensorFlow? pe care cadrele de nivel scăzut le lasă dezvoltatorilor, precum și metode simple pentru construirea de arhitecturi de rețele neuronale Biblioteca Keras a adus o contribuție imensă la dezvoltarea TensorFlow și este acum o parte directă a acesteia (cum ar fi tf Keras) și continuă să fie, de asemenea, un proiect separat PyTorch este o încrucișare între TensorFlow brut de nivel scăzut și Keras; trebuie să vă scrieți propriile rutine de antrenament și inferențe, dar construirea rețelelor neuronale este aproape la fel de ușoară (și aș argumenta că dezvoltatorii Python consideră abordarea lui PyTorch de a construi și reutiliza arhitecturi mult mai logică decât unele dintre minunile Keras) În timp ce PyTorch este distribuit în scopuri de cercetare, pe măsură ce citiți, veți vedea că PyTorch este ideal pentru cazurile de utilizare în producție Convenții tipografice Această carte folosește următoarele convenții tipografice: Cursive Indică termeni noi Font sans serif Indică adrese URL, adrese de e-mail, nume de fișiere și extensii Font monospațial Folosit pentru exemple de programe și în paragrafe pentru a se referi la elemente de program, cum ar fi variabile sau nume de funcții, baze de date, variabile de mediu, instrucțiuni și cuvinte cheie Acest element înseamnă un indiciu sau o sugestie Cuvânt înainte Acest element înseamnă o notă generală Acest element indică o avertizare sau o atenție Utilizarea exemplelor de cod Materiale suplimentare (eșantioane de cod, exerciții etc ) sunt disponibile pentru descărcare la https://oreil ly/pytorch-github Această carte este concepută pentru a vă ușura munca În general, dacă orice exemplu de cod este inclus în carte, îl puteți utiliza în programe și documentație Nu este nevoie să ne contactați pentru permisiune, cu excepția cazului în care copiați o parte semnificativă a codului De exemplu, scrierea unui program care utilizează mai multe fragmente de cod din această carte nu necesită permisiune separată Desigur, aveți nevoie de permisiunea pentru a vinde sau a distribui un CD cu exemple din cărțile O'Reilly Răspunsul la o întrebare citând această carte și citând exemple de cod nu necesită contactarea noastră Includerea unei cantități semnificative de cod din exemplele acestei cărți în documentația produsului este cel mai bine discutată Dacă considerați că utilizarea de către dvs a exemplelor de cod este în afara domeniului de aplicare a utilizării legale sau a permisiunilor date mai sus, nu ezitați să ne contactați la permissions@oreilly com Mulțumiri Mulțumesc mult editorului meu, Melissa Potter, familiei mele și Tammy Edlund (Tashsha Edlund) pentru ajutorul acordat în realizarea acestei cărți Mulțumim editorilor științifici care au oferit Mulțumiri au oferit feedback valoros pe parcursul scrierii acestei cărți, inclusiv Phil Rhodes, David Mertz, Charles Givre, Dominic Monn, Ankur Patel și Sarah Nagy (Sarah Nagy) De la editor Trimiteți comentariile, sugestiile, întrebările dvs la comp@piter celule (editura Peter, ediție computer) Ne-am bucura sa primim vesti de la tine! Pe site-ul editurii www piter com veți găsi informații detaliate despre cărțile noastre CAPITOLUL Noțiuni introductive cu PyTorch În acest capitol, vom configura tot ce avem nevoie pentru a începe cu PyTorch și, odată ce am făcut asta, fiecare capitol următor se va construi pe baza originală, așa că este important să o facem corect Acest lucru duce la prima întrebare fundamentală: merită să construiți o mașină de deep learning personalizată sau doar să utilizați una dintre numeroasele resurse cloud disponibile? Construirea unui computer de învățare profundă Când te scufundi în învățarea profundă, devine necesar să creezi un monstru pentru toate nevoile tale de calcul Vă puteți petrece toată ziua uitându-vă la diferite tipuri de plăci grafice, studiind capacitățile diferitelor procesoare, alegând cel mai bun tip de memorie pe care îl puteți cumpăra și, în cele din urmă, gândindu-vă la cât de mare puteți obține o unitate SSD pentru a face acces la disc cat de rapid posibil Nu spun că este redundant; Acum câțiva ani, am petrecut o lună listând piesele și adunând un nou computer pe masa din bucătărie Sfatul meu pentru tine, mai ales dacă ești începător: nu face asta Puteți cheltui cu ușurință câteva mii de dolari pe un sistem pe care nu îl veți folosi atât de mult În schimb, studiați această carte folosind resurse cloud (Amazon Web Services, Google Cloud sau Microsoft Azure) și abia apoi începeți să vă gândiți să vă construiți propriul computer dacă simțiți că aveți nevoie de un computer pentru a rula / Nu trebuie să investiți mult în hardware pentru a rula codul din această carte Construirea unei mașini de învățare profundă S-ar putea să nu aveți nevoie chiar să vă construiți un computer special Este întotdeauna plăcut să știi că construirea propriei platforme poate deveni mai ieftină dacă știi că calculele vor fi întotdeauna limitate la o singură mașină (nu mai mult de câteva GPU-uri) Cu toate acestea, dacă calculul începe să necesite mai multe mașini și GPU-uri, cloud-ul este din nou de interes Având în vedere costul construirii unui computer dedicat, m-aș gândi de două ori înainte de a-l lua în serios Dacă nu v-am convins încă, următoarele secțiuni vă vor oferi sugestii despre cum să vă construiți sistemul GPU Inima fiecărei unități de învățare profundă, GPU-ul din placa grafică, este baza pentru majoritatea calculelor din PyTorch și este probabil cea mai scumpă componentă a unui computer Recent, prețurile plăcilor video au crescut, iar livrările au scăzut datorită utilizării acestora în minerit de criptomonede Din fericire, bula se dezumflă deja și sunt mai puține probleme cu achiziția La momentul scrierii acestui articol, aș recomanda să obțineți o placă grafică NVIDIA GeForce RTX Ti Dacă aveți nevoie de o opțiune mai ieftină, atunci nu ezitați să alegeți Ti (deși dacă vă decideți să cumpărați Ti din motive financiare, vă sugerez să luați în considerare în continuare tehnologiile cloud) În ciuda disponibilității plăcilor grafice AMD, suportul acestora în PyTorch nu este în prezent suficient de bun De aceea recomand NVIDIA Fiți atenți la tehnologia ROCm, care ar trebui să le facă o alternativă solidă pentru GPU CPU / Placa de baza Poate doriți să cumpărați o placă de bază din seria Z Mulți vor spune că procesorul pentru deep learning nu este atât de important și că te poți descurca cu unul mai lent dacă ai un GPU puternic Dar ați fi surprins cât de des devine CPU-ul o problemă, mai ales când aveți de-a face cu date augmentate Capitolul • Noţiuni de bază cu PyTorch RAM Mai multă memorie RAM este bună, deoarece înseamnă că puteți stoca mai multe date fără a fi nevoie să mergeți la stocarea pe disc mult mai lentă (acest lucru este deosebit de important în timpul pașilor de antrenament al modelului) Contați pe cel puțin GB de memorie DDR depozitare Spațiul de stocare ar trebui să fie împărțit în două clase: în primul rând, o unitate SSD M - cât de mare vă puteți permite, astfel încât să aveți cel mai rapid acces la datele fierbinți în timp ce lucrați activ la un proiect Pentru stocarea de clasa , adăugați o unitate Serial ATA (SATA) de TB pentru datele la care nu lucrați în mod activ și mutați-o în stocarea la cald și la rece după cum este necesar Vă sfătuiesc să acordați atenție PCPartPicker pentru a înțelege ce sisteme de învățare profundă folosesc alții (uneori ideile sunt destul de ciudate) Vă veți face o idee despre componentele și prețurile necesare, care pot fluctua foarte mult, mai ales când vine vorba de GPU-uri Acum că ați explorat setările locale și opțiunile computerului, este timpul să treceți la cloud Învățare profundă în cloud Deci, de ce este mai bună opțiunea cloud? Mai ales dacă luați în considerare că schema de prețuri Amazon Web Services (AWS) vă permite să plătiți pentru un sistem de învățare automată în termen de șase luni Gândește-te bine: nu vei folosi computerul / în acele șase luni de la început Doar că nu vei face Aceasta înseamnă că puteți opri aparatul cloud și puteți plăti bani pentru datele stocate în acest moment Începătorii nu trebuie să facă totul și să folosească unul dintre giganții NVIDIA, Tesla V , conectat la cloud Tu poți să începi Învățare profundă în cloud de la una dintre opțiunile mai ieftine (uneori chiar gratuite) bazate pe K și faceți upgrade la un card mai puternic atunci când este nevoie Acesta este de câteva ori mai ieftin decât cumpărarea unei plăci video de bază și upgrade-ul la TI De asemenea, dacă doriți să adăugați opt carduri V la stocarea non-duplicată, se poate face cu doar câteva clicuri Încercați să faceți același lucru cu propriul dvs hardware O altă problemă este serviciul Dacă vă obișnuiți să restaurați în mod regulat instanțe în cloud (în mod ideal, începeți de la început de fiecare dată când reveniți la lucrul la experimente), aproape întotdeauna veți avea un sistem actualizat Dacă aveți propriul computer, actualizarea depinde de dvs Mărturisesc: am propria mea mașină de deep learning personalizată și am ignorat instalarea Ubuntu atât de mult timp încât actualizările acceptate sunt depășite A durat o zi întreagă pentru ca sistemul să repornească și să funcționeze din nou Ce păcat! Oricum, ați decis să treceți la cloud Ura! Următorul: care furnizor? Serviciu cloud Google Colaboratory Înainte de a trece la furnizori, să ne gândim la asta Dacă nu vrei să faci nimic? Nu doriți să treceți prin acea construcție plictisitoare a unui computer sau să parcurgeți pașii instalării instanțelor în cloud? Unde este opțiunea pentru leneși? Google are o soluție excelentă Colaboratory (sau Colab) (https://colab research google com/) este practic un mediu Jupyter Notebook gratuit care nu necesită instalare Tot ce aveți nevoie este un cont Google pentru a vă configura propriile notebook-uri Pe fig Figura prezintă o captură de ecran a unui notebook creat în Colab Colab este o modalitate excelentă de a te scufunda în deep learning, deoarece este preinstalat cu TensorFlow și PyTorch Nimic nu trebuie configurat Doar introduceți lanterna de import și fiecare utilizator poate obține acces gratuit la GPU NVIDIA T până la ore de lucru continuu Gratuit! În comparație, studiile empirice arată că obțineți aproximativ jumătate din viteza de Ti pentru antrenament, dar cu un spațiu de stocare suplimentar de GB pentru modelele mari Pentru o taxă suplimentară, Colab se poate conecta la mai multe Capitolul • Noţiuni de bază cu PyTorch Orez Google Colab (orator) GPU puternic și hardware dedicat procesorului Google tensor, dar toate exemplele din această carte pot fi făcute gratuit în Colab Sfatul meu este să utilizați mai întâi Colab cu această carte și apoi să treceți la instanțe cloud dedicate și/sau propriul dvs server personal de deep learning, după cum este necesar Utilizarea Colab nu necesită efort din partea dvs Cu toate acestea, dacă doriți mai mult control asupra sistemului sau acces la Secure Shell (SSH) - instanța dvs în cloud - atunci să vedem ce oferă furnizorii de servicii cloud Furnizori de cloud Fiecare dintre cei mai mari trei furnizori de cloud (Amazon Web Services, Google Cloud Platform și Microsoft Azure) oferă instanțe bazate pe GPU (numite și mașini virtuale sau VM) Învățare profundă în cloud și imagini oficiale care să fie distribuite în acele cazuri Au tot ce aveți nevoie pentru a începe fără a fi nevoie să instalați singur drivere și biblioteci Python Să vedem ofertele furnizorilor Amazon Web Services AWS, gorila de de lire sterline a pieței cloud, va satisface mai mult decât nevoile dvs de GPU cu tipurile de instanțe P și P (Tipul de instanță G tinde să fie folosit mai frecvent în aplicații grafice, cum ar fi codificarea video, așa că nu îl vom acoperi aici ) plăci NVIDIA VI incredibil de rapide (și poți lega dintre ele la o singură instanță dacă vrei) Dacă urmează să utilizați AWS, vă recomand să luați clasa p xlarge Vă va costa doar de cenți pe oră și vă va oferi suficientă putere pentru a gestiona instanțe S-ar putea să doriți să treceți la cursurile RH atunci când începeți să lucrați la niște joburi complexe Kaggle Crearea unei platforme de deep learning pe AWS este incredibil de simplă: Conectați-vă la consola AWS Selectați EC și faceți clic pe Lansare instanță Găsiți opțiunea Deep Learning AMI (Ubuntu) și selectați-o Selectați p xlarge ca tip de instanță Porniți instanța, fie prin crearea unei noi perechi de chei, fie prin reutilizarea unei perechi de chei existente Conectați-vă la instanță folosind SSH și redirecționați portul de pe computerul local către instanță: ssh -L localhost: :localhost: \ -i numele dvs de fișier pem ubuntu@DNS-ul instanței dvs Capitolul • Noţiuni de bază cu PyTorch Lansați Jupyter Notebook tastând jupyter notebook Copiați adresa URL generată și inserați-o în browser pentru a accesa Jupyter Nu uitați să închideți instanța dacă nu o utilizați! Acest lucru se poate face făcând clic dreapta pe o instanță din interfața web și ieșind Aceasta va închide instanța și, prin urmare, nu veți fi taxat pentru ea până când nu rulează Cu toate acestea, va trebui să plătiți pentru spațiul de stocare alocat, chiar dacă instanța este oprită Tine cont de asta Pentru a elimina complet instanța și a stoca, selectați opțiunea de final Azur La fel ca AWS, Azure oferă un set de instanțe bazate pe K mai ieftine și instanțe bazate pe Tesla VI mai scumpe Azure folosește, de asemenea, instanțe bazate pe software-ul P mai vechi ca punct intermediar între celelalte două În scopul acestei cărți, recomand un tip de instanță care folosește un K (NC ), care costă și de cenți pe oră După cum este necesar, puteți trece la alte tipuri de NC, NCv (P ) sau NCv (V ) Iată cum să configurați o mașină virtuală în Azure: Conectați-vă la portalul Azure și căutați imaginea Data Science Virtual Machine în Azure Marketplace Faceți clic pe butonul Obțineți acum Completați detaliile mașinii virtuale (dați-i un nume, selectați un SSD peste HDD, un nume de utilizator/parolă SSH, un abonament pentru taxa de instanță și setați cea mai apropiată locație care oferă un tip de instanță NC) Faceți clic pe butonul de opțiune Creare Instanța ar trebui să fie gata în aproximativ cinci minute Puteți utiliza SSH cu numele de utilizator/parola care a fost specificat pentru numele public DNS (Domain Name System) al acestei instanțe Învățare profundă în cloud Jupyter Notebook ar trebui să ruleze după instanțiere; accesați http://dns name of instance: și utilizați combinația nume de utilizator/parolă pe care ați folosit-o pentru a vă conecta la SSH Google Cloud Platform Pe lângă faptul că oferă instanțe K , P și V , cum ar fi Amazon și Azure, Google Cloud Platform (GCP) oferă procesoare tensor pentru cei cu date uriașe și cerințe ridicate de calcul În scopul acestei cărți, procesoarele tensor nu sunt necesare, dar vor funcționa cu PyTorch Nu simțiți că trebuie să utilizați TensorFlow dacă proiectul la care lucrați le necesită Începerea cu Google Cloud este, de asemenea, destul de simplă: Găsiți o VM de deep learning pe GCP Marketplace Faceți clic pe Run on Compute Engine Dați un nume instanței și atribuiți-o celei mai apropiate locații Setați tipul mașinii la vCPU Setați GPU-ul la K Asigurați-vă că PyTorch este selectat sub Framework Bifați caseta Instalați automat GPU NVIDIA la prima lansare? Instalați unitatea de pornire pe un SSD de stocare permanent Faceţi clic pe Extindere Va dura aproximativ cinci minute pentru a implementa complet mașina virtuală Pentru a vă conecta la Jupyter într-o instanță, asigurați-vă că sunteți conectat la proiectul corect în gcloud și executați această comandă: gcloud compute ssh INSTANCE NAME -L :localhost: Capitolul • Noţiuni de bază cu PyTorch Google Cloud ar trebui să încarce în jur de de cenți pe oră, ceea ce îl face cel mai ieftin dintre cei trei furnizori principali de cloud Ce furnizor de cloud să folosești? Dacă nu aveți preferințe specifice, atunci vă recomand Google Cloud Platform (GCP); este cea mai rentabilă opțiune și mult mai ușor de scalat la procesoare tensor atunci când este necesar decât ofertele AWS sau Azure Dar dacă aveți deja resurse pe una dintre celelalte două platforme, atunci mediile lor sunt bune Odată ce instanța cloud este activă și rulează, vă veți putea conecta la copia dvs de Jupyter Notebook Să ne dăm seama ce să facem în continuare Folosind Jupyter Notebook Jupyter Notebook este un mediu bazat pe browser care vă permite să combinați codul live cu text, imagini și vizualizări și a devenit unul dintre principalele instrumente pentru oamenii de știință de date din întreaga lume Blocnotesurile create în Jupyter sunt ușor de partajat O captură de ecran a Jupyter Notebook în acțiune este prezentată în Figura În această carte, nu vom acoperi niciuna dintre caracteristicile avansate ale Jupyter Tot ce trebuie să știți este cum să creați un nou blocnotes și că Shift-Enter rulează conținutul celulei Dacă nu l-ați folosit niciodată până acum, vă sugerez să citiți documentația Jupyter înainte de a trece la capitolul Înainte de a începe cu PyTorch, să vedem cum să instalăm totul manual Utilizarea Jupyter Notebook Orez Caietul Jupyter Instalarea PyTorch de la zero Poate că aveți nevoie de mai mult control asupra software-ului dvs decât doar utilizarea uneia dintre imaginile din cloud Sau codul are nevoie de o versiune specifică a PyTorch Sau, în ciuda tuturor avertismentelor mele, chiar vrei să-ți construiești propriul computer Să învățăm cum să instalăm PyTorch pe un server Linux Este posibil să utilizați PyTorch cu Python x, dar vă recomand insistent să nu o faceți În timp ce saga de actualizare a Python de la x la x se desfășoară de peste un deceniu, tot mai multe pachete încep să renunțe la suportul pentru Python x Deci, dacă nu există un motiv întemeiat, asigurați-vă că sistemul dumneavoastră rulează Python Capitolul • Noţiuni de bază cu PyTorch Descărcați CUDA În timp ce PyTorch poate rula în modul CPU, cea mai practică utilizare a PyTorch necesită un GPU, așa că va fi nevoie de suport pentru GPU Este destul de simplu; dacă există un card NVIDIA, atunci setările se fac prin interfața API Compute Unified Device Architecture (CUDA) Alegeți formatul de pachet Linux corespunzător la alegere și instalați-l (https://oreil ly/Gx q ) Pentru Red Hat Enterprise Linux (RHEL) : sudo rpm -i cuda-repo-rhel - - ocal- - - - x rpm sudo yum clean all sudo yum install cuda Pentru Ubuntu : sudo dpkg -i cuda-repo-ubuntul - - -local- - l -l amd deb sudo apt-key add /var/cuda-repo- / fa af pub sudo apt-get update sudo apt-get install cuda Anaconda Python are multe pachete, fiecare cu propriile sale avantaje și dezavantaje La fel ca dezvoltatorii PyTorch, recomand să instalați Anaconda, care oferă cea mai bună distribuție de pachete pentru oamenii de știință de date La fel ca CUDA, este destul de ușor de instalat Accesați site-ul web Anaconda (https://www anaconda com/distribution/) și selectați fișierul de instalare Deoarece aceasta este o arhivă uriașă care este executată cu un script shell, vă recomand să rulați md sum pe fișierul descărcat și să îl verificați cu lista de semnături (https://oreil ly/anuhu) înainte de a o rula cu bash Anaconda -VERSI N-Linux - x SH Acest lucru se va asigura că semnătura de pe computer se potrivește cu semnătura de pe pagina web Verificarea va arăta că fișierul descărcat nu a fost piratat și este sigur pentru sistemul dvs Scriptul vă va oferi câteva indicii despre locațiile de instalare; acceptați doar valorile implicite Instalarea PyTorch de la zero S-ar putea să vă întrebați: "Pot să fac același lucru pe un MacBook?" Majoritatea Mac-urilor sunt echipate cu procesoare Intel sau AMD și nu acceptă PyTorch accelerat de GPU Vă sfătuiesc să utilizați tehnologiile Colab sau cloud, nu Mac local Și în sfârșit, PyTorch! (și Jupyter Notebook) Acum că ai instalat Anaconda, configurarea PyTorch este simplă: conda install pytorch torchvision -c pytorch Această comandă instalează PyTorch și biblioteca torchvision, pe care le vom folosi în următoarele câteva capitole pentru a crea arhitecturi de învățare profundă care funcționează cu imagini Anaconda a instalat și Jupyter Notebook, așa că puteți începe prin a-l rula: caiet jupyter Accesați http://ADRESA-DVS -IP: , creați un nou bloc de note și introduceți următoarea comandă: torță de import prinț(torch with uda is available()) prinț(torch rând( , )) Ar trebui să obțineți următoarele: Adevărat , , , , [torch FloatTensor de dimensiune x ] Dacă cuda is available() returnează False, trebuie să depanați instalarea CUDA, astfel încât RuTorch să poată vedea placa video Valorile tensorilor în cazul dvs vor fi diferite Ce altceva este un tensor? Tensorii stau la baza aproape totul în RuTorch, așa că trebuie să știți ce sunt aceștia și ce pot face Capitolul • Noţiuni de bază cu PyTorch Tensori Un tensor este atât un container pentru numere, cât și un set de reguli care definesc transformările între tensori și produc noi tensori Cel mai ușor este să ne gândim la tensori ca la rețele multidimensionale Fiecare tensor are un rang corespunzător spațiului său dimensional Un scalar simplu (de exemplu, ) poate fi reprezentat ca un tensor de rang , un vector de rang , o matrice de rang n x n și așa mai departe În exemplul anterior, am creat un tensor de rang cu valori aleatorii folosind torță rand() De asemenea, le putem crea din liste: x = torch tensor([[ , , ],[ , , ],[ , , ]]) X >tensor([[ , , ], [ , P ]l [ , , ]]) Este posibil să schimbați un element dintr-un tensor utilizând indexarea standard Python: x[ ][ ] = >tensor([[ , , ], [ , P b [ , , ]]) Puteți utiliza funcții speciale de creație pentru a genera anumite tipuri de tensori În special, ones() și zeros() vor genera tensori umpluți cu și respectiv : torță zero( , ) > tensor([[ , ], [ , ]]) Puteți efectua operații matematice standard pe tensori (de exemplu, adăugați doi tensori): tensor one(l, ) + tensor one(l, ) > tensor([[ , ]]) Și dacă aveți un tensor de rang , puteți prelua valoarea cu item(): torch rând( ) item() > , Tensori Tensorii "vii" în CPU sau GPU și pot fi copiați folosind funcția to(): cpu tensor = tensor rand( ) сpu tensor deveee > device(type='epu') gpu tensor = cpu tensor to("cuda") gpu tensor device > device(type='cuda', index= ) Operații cu tensori Documentația PyTorch spune (https://oreil ly/lEvO-) că există multe funcții care se aplică tensoarelor, de la găsirea elementului maxim până la aplicarea transformării Fourier Pentru a transforma imaginile, textul și sunetul în tensori și pentru a le manipula pentru a efectua operațiunile noastre, nu trebuie să știți toate acestea, dar unele cunoștințe vă vor fi cu siguranță utile Recomand cu caldura citirea documentatiei, mai ales dupa citirea acestei carti Vom analiza acum toate funcțiile care vor fi utilizate în capitolele următoare În primul rând, de multe ori trebuie să găsim elementul maxim din tensor, precum și indicele care conține valoarea maximă (deoarece aceasta corespunde adesea cu clasa pe care rețeaua neuronală a determinat-o în predicția sa finală) Acest lucru se face folosind funcțiile max() și argmax() De asemenea, puteți utiliza item() pentru a obține valoarea standard Python dintr-un tensor D torch rând( , ) max() > tensor( , ) torch rând( , ) max() item() > , Uneori trebuie să schimbați tipul tensorului, de exemplu, LongTensor în FloatTensor Acest lucru se poate face cu comanda to(): tensor lung = torch tensor([[ , , ],[ , , ],[ , , ]]) long tensor type() > "torch LongTensor" float tensor = torch tensor([[ , , ],[ , , ],[ , , ]]) to(dtype=torch float ) float tensor type() > "torch FloatTensor" Capitolul • Noţiuni de bază cu PyTorch Majoritatea funcțiilor care operează pe tensori și returnează un tensor creează un nou tensor pentru a păstra rezultatul Totuși, dacă doriți să economisiți memorie, vedeți dacă este definită funcția ip-piace, care ar trebui să aibă același nume ca și funcția originală, dar cu o liniuță de subliniere ( ) atașată random tensor = torch rand( , ) random tensor Iog () >tensor([[- , - ], [- , , - , ]]) random tensor log () > tensor([[- , , - , ], [- , , - , ]]) O altă operație comună este schimbarea unui tensor Acest lucru se face adesea deoarece stratul de rețea neuronală poate necesita o formă de intrare care nu este semnificativ diferită de ceea ce este introdus în prezent De exemplu, baza de date cu mostre de scriere de mână a Institutului Național de Standarde și Tehnologie (MNIST) este un set de imagini de x care sunt ambalate în rețele de lungime Pentru a utiliza rețelele construite, trebuie să le convertiți înapoi la x tensori x (prima cifră este numărul de canale, de obicei roșu, verde și albastru, dar deoarece datele MNIST sunt doar imagini în tonuri de gri, avem un singur canal) Acest lucru se poate face prin comanda viey() sau reshape(): flat tensor = torch rand( ) viewed tensor = flat tensor view(l, , ) viewed tensor shape > torch Size([ , , ]) reshaped tensor = flat tensor reshape(l, , ) reshaped tensor shape > torță Dimensiune([ , , ]) Rețineți că forma tensorului modificată trebuie să aibă același număr de elemente ca și originalul Dacă introduceți flat tensor reshape( , , ) veți vedea această eroare: RuntimeError Traceback (cel mai recent caii ultimul) în () > flat tensor reshape( , , ) RuntimeError: forma "[ , , ]" este nevalidă pentru intrarea de dimensiune Tensori Acum s-ar putea să vă întrebați care este diferența dintre viey() și reshape() Răspunsul este că viee() funcționează ca o reprezentare a tensorului original, deci dacă datele de bază se schimbă, reprezentarea se va schimba și ea (și invers) Totuși, operațiunea viee() poate arunca erori dacă reprezentarea necesară nu este adiacentă, adică nu folosește același bloc de memorie pe care l-ar ocupa dacă un nou tensor de forma necesară ar fi creat de la zero Dacă se întâmplă acest lucru, trebuie să apelați tensor contiguous() înainte de a putea utiliza operația viey() Cu toate acestea, operația reshape() face toate acestea în spatele scenei, așa că, în general, recomand să folosiți reshape() mai degrabă decât vey() În cele din urmă, poate fi necesar să redimensionați tensorul Cel mai probabil veți întâlni acest lucru atunci când lucrați cu imagini care sunt adesea stocate ca tensori [înălțime, lățime, canal], dar PyTorch preferă tensori [canal, înălțime, lățime] Pentru a facilita procesarea lor, puteți folosi comanda permuteQ: hwc tensor = torch rand( , , ) chw tensor = hwc tensor permute( , ,l) chw tensor shape > torță Dimensiune([ , , ]) În acest caz, am permutat tensorul[ , , ] ale cărui argumente sunt indici ai dimensiunilor tensorului, așa că dorim ca dimensiunea finală ( , din cauza indexării zero) să vină înaintea tensorului nostru, urmată de cele două dimensiuni rămase în lor în modul obişnuit Traducerea unui tensor Broadcasting, o caracteristică împrumutată de la NumPy, vă permite să efectuați operații între un tensor și altul, dar la o scară mai mică Este posibil să se traducă prin doi tensori dacă încep în ordine inversă, adică dintr-o dimensiune finită: ■ Cele două dimensiuni sunt egale ■ Una dintre dimensiuni este Capitolul • Noţiuni de bază cu PyTorch În cazul nostru, traducerea funcționează pentru că are dimensiunea , iar din moment ce nu există alte dimensiuni, poate fi extins pentru a acoperi un alt tensor Dacă am încerca să adăugăm tensorul [ , ] la tensorul [ , ], am primi acest mesaj de eroare: Mărimea tensorului a ( ) trebuie să corespundă mărimii tensorului b ( ) cu o dimensiune non-singletonă de Dar am putea adăuga cu ușurință tensorul [ , ] la tensorul [ , ] Difuzarea este o mică caracteristică utilă care vă permite să faceți codul mai scurt și adesea mai rapid decât scrierea manuală a tuturor numerelor și parametrilor tensorului Asta este tot ce trebuie să știi despre tensori pentru a începe! Mai târziu voi vorbi despre alte câteva operațiuni, iar pentru citirea capitolului , informațiile disponibile vor fi suficiente Concluzie Deci acum aveți instalat PyTorch - fie în cloud, fie pe mașina dvs locală Am vorbit despre blocul fundamental al bibliotecii - tensorul - și v-am prezentat pe scurt Jupyter Notebook Totul pentru a începe! În capitolul următor, aplicând ceea ce am învățat, vom începe să construim rețele neuronale și să clasificăm imaginile Înainte de a continua, asigurați-vă că înțelegeți tensorii și Jupyter Informații suplimentare ■ Documentația proiectului Jupyter, https://jupyter org/documentation ■ Documentația PyTorch, https://pytorch org/docs/stable/ ■ AMI-uri AWS Deep Learning, https://aws amazon com/en/machine-learning/amis/ ■ Mașini virtuale Azure Data Science, https://aws amazon com/en/machine-learning/amis/ CAPITOLUL Clasificarea imaginilor cu PyTorch Manualele de învățare profundă sunt pline de terminologie profesională de neînțeles Încerc să o mențin la minimum și să dau întotdeauna un exemplu care poate fi extins cu ușurință odată ce te obișnuiești să lucrezi cu PyTorch Folosim acest exemplu pe tot parcursul cărții pentru a demonstra cum să depanați un model (Capitolul ) sau să îl implementăm în producție (Capitolul ) De acum și până la sfârșitul capitolului , vom compila un clasificator de imagini Rețelele neuronale sunt utilizate în mod obișnuit ca clasificatori de imagini; rețelele oferă o imagine și pun o întrebare simplă: "Ce este?" Să începem prin a crea aplicația noastră în PyTorch Problema de clasificare Aici vom crea un clasificator simplu care poate deosebi un pește de o pisică Vom repeta procesul de proiectare și dezvoltare a modelului nostru pentru a-l face mai precis Pe fig și prezintă un pește și o pisică în toată gloria lor Nu sunt sigur dacă peștele are un nume, dar numele pisicii este Helvetica Să începem cu o discuție despre problemele standard de clasificare Capitolul • Clasificarea imaginilor cu PyTorch Orez Peşte! Orez Helvetica într-o cutie Problema de clasificare Dificultăți standard Cum se scrie un program care poate distinge un pește de o pisică? Poate ați putea scrie un set de reguli care descriu faptul că o pisică are o coadă sau că un pește are solzi și să aplicați acele reguli unei imagini, astfel încât programul să clasifice imaginea Dar acest lucru va necesita timp, efort și abilități Ce să faci dacă primești o pisică Manx? Deși este clar o pisică, nu are coadă Aceste reguli devin din ce în ce mai complicate pe măsură ce încerci să descrii toate scenariile posibile cu ele De asemenea, trebuie să recunosc că programarea vizuală este un coșmar pentru mine, așa că gândul că trebuie să codificăm manual toate aceste reguli este terifiant Avem nevoie de o funcție care, atunci când este introdusă o imagine, returnează o pisică sau un pește Este dificil să construiești o astfel de funcție prin simpla enumerare a tuturor criteriilor în întregime Dar învățarea profundă face, în esență, computerul să facă munca grea de a crea toate aceste reguli despre care tocmai am vorbit, atâta timp cât creăm o structură, oferim rețelei o mulțime de date și îi spunem dacă a dat răspunsul corect Asta vom face În plus, veți învăța câteva metode de bază de utilizare a PyTorch Dar mai întâi datele În primul rând, avem nevoie de date Câte date? Depinde de diverși factori După cum veți vedea în capitolul , ideea că orice tehnică de învățare profundă necesită cantități uriașe de date pentru a antrena o rețea neuronală nu este neapărat adevărată Cu toate acestea, deocamdată, vom începe de la zero, ceea ce necesită de obicei acces la o mulțime de date Sunt necesare multe imagini cu pești și pisici S-ar putea petrece ceva timp descarcând o grămadă de imagini dintr-o căutare de imagini Google, dar există o modalitate mai ușoară: colecția de imagini standard folosită pentru a antrena rețelele neuronale este ImageNet Conține peste milioane de imagini și de mii de categorii de imagini Acesta este standardul după care toți clasificatorii Capitolul • Clasificarea imaginilor cu PyTorch imaginile sunt comparate Prin urmare, iau imagini de acolo, deși, dacă doriți, puteți alege și alte variante Pe lângă date, PyTorch ar trebui să aibă o modalitate de a determina ce este o pisică și ce este un pește Este destul de ușor pentru noi, dar este mai dificil pentru un computer (de aceea creăm un program!) Folosim etichete atașate datelor și această învățare se numește învățare automată supravegheată (Dacă nu aveți acces la niciun marcaj, atunci ați ghicit, învățare automată nesupravegheată ) Dacă folosim date ImageNet, etichetele acestuia nu vor fi utile deoarece conțin prea multe informații Marcarea unei pisici tigrate sau a unui păstrăv pentru computer nu este același lucru cu o pisică sau un pește Trebuie să le reetichezi Deoarece ImageNet este o colecție vastă de imagini, am compilat URL-urile pentru imagini și etichete cu pești și pisici (https://oreil ly/NbtEU) Puteți rula scriptul download py în acest director și va descărca imaginile de la adresele URL și le va plasa în locațiile adecvate pentru învățare Reetichetarea este simplă; Scriptul stochează imagini cu pisici în directorul tren/pisică și imagini cu pește în directorul tren/pește Dacă nu doriți să utilizați un script pentru a încărca, trebuie doar să creați aceste directoare și să puneți imaginile corespunzătoare în locurile potrivite Acum avem datele, dar trebuie să le convertim într-un format pe care PyTorch îl înțelege PyTorch și încărcătoare de date Încărcarea și convertirea datelor în formate pregătite pentru antrenament este adesea unul dintre domeniile cele mai consumatoare de timp ale științei datelor PyTorch a dezvoltat cerințe stabilite de interacțiune a datelor care fac destul de simplu dacă lucrați cu imagini, text sau audio Cei doi termeni principali de lucru cu date sunt seturile de date și încărcătorul de date Un set de date este o clasă Python care ne permite să primim datele pe care le trimitem în rețeaua neuronală Dificultăți standard Încărcătorul de date este cel care împinge datele din setul de date în rețea (Poate include informații precum: Câte procese de lucru încarcă date în rețea? Câte imagini încărcăm simultan?) Să ne uităm mai întâi la setul de date Fiecare set de date, indiferent dacă conține imagini, sunet, text, peisaje D, informații de bursă sau orice altceva, poate interacționa cu PyTorch dacă îndeplinește cerințele acestei clase abstracte Python: clasa Dataset(obiect): def getitem (seif, index): cauza NotlmplementedError def len (seif): cauza NotlmplementedError Este destul de simplu: trebuie să folosim o metodă care returnează dimensiunea setului nostru de date (len) și una care poate extrage un element din setul de date în pereche (labei, tensoc) Acesta este apelat de încărcătorul de date, deoarece transmite datele rețelei neuronale pentru antrenament Așa că trebuie să scriem un corp pentru o metodă getitem care poate lua o imagine, o poate converti într-un tensor și returnează-o și eticheta înapoi, astfel încât PyTorch să poată lucra cu ea Tot clar, dar se pare că acest scenariu este destul de comun, așa că poate PyTorch va ușura lucrurile? Creați un set de date de antrenament Pachetul tocchvision include o clasă ImageFoldec care face aproape totul, atâta timp cât imaginile noastre sunt într-o structură în care fiecare director este o etichetă (de exemplu, toate pisicile sunt într-un director numit pisică) Iată ce aveți nevoie pentru exemplul de pisică și pește: import torchvision din torchvision import transforms calea date trenului = " /tren/" Capitolul • Clasificarea imaginilor cu PyTorch transforms = transforms Compune([ transforms Resize( ), transforms ToTensor(), transforms Normalize(mean=[ , , ], std=[ , , ] ) ]) train data = torchvision datasets ImageFolder (rădăcină=train data path,transform=transforms) Aici se mai adaugă ceva, deoarece torchvision vă permite, de asemenea, să specificați o listă de transformări care vor fi aplicate unei imagini înainte ca aceasta să intre în rețeaua neuronală Transformarea implicită este de a prelua datele imaginii și de a le transforma într-un tensor (metoda trans formează ToTensor() prezentată în codul anterior), dar există alte câteva lucruri care ar putea să nu fie atât de evidente În primul rând, GPU-urile sunt construite pentru a efectua rapid calcule de dimensiune standard Dar probabil că avem un sortiment de imagini în multe rezoluții Pentru a îmbunătăți performanța de procesare, scalam fiecare imagine primită la aceeași rezoluție de x folosind transformarea Resize( ) Apoi convertim imaginile într-un tensor și în cele din urmă normalizăm tensorul în jurul unui set specific de puncte medii și de deviație standard Normalizarea este importantă deoarece se așteaptă să se realizeze o mulțime de înmulțiri pe măsură ce intrarea trece prin straturile rețelei neuronale; menținerea valorilor de intrare între și împiedică creșterea serioasă a valorilor în timpul fazei de antrenament (cunoscută sub numele de problema exploziei gradienților) Această realizare magică este doar media și deviația standard a setului de date ImageNet ca întreg Este posibil să se calculeze în mod specific pentru un subset de pești și pisici, dar aceste valori sunt destul de sigure (Dacă lucrați la un set de date complet diferit, ar trebui să calculați această medie și abatere, deși mulți folosesc pur și simplu constantele ImageNet și raportează rezultate acceptabile ) Transformările componabile facilitează, de asemenea, efectuarea de acțiuni precum rotirea și mutarea unei imagini pentru creșterea datelor, la care vom reveni în Capitolul Dificultăți standard În acest exemplu, redimensionăm imaginile la * Am făcut această alegere aleatorie pentru a accelera calculele pe prima noastră rețea Cele mai multe dintre arhitecturile existente pe care le veți vedea în Capitolul folosesc rezoluții x sau x pentru imaginile lor de intrare În general, cu cât dimensiunea fișierului de intrare este mai mare, cu atât mai multe date poate învăța rețeaua Dezavantajul este că, de obicei, puteți încadra un lot mai mic de imagini în memoria GPU Există multe alte informații despre seturile de date și asta nu este tot Dar de ce trebuie să știm mai mult decât trebuie când știm deja despre setul de date de antrenament? Seturi de date de validare și control Setul nostru de date de antrenament este configurat, dar acum trebuie să repetăm aceiași pași cu setul de date de validare Care este diferența aici? Unul dintre capcanele învățării profunde (și de fapt toată învățarea automată) este supraadaptarea, modelul este foarte bun la recunoașterea pe care a fost antrenat, dar nu funcționează pe exemple pe care nu le-a văzut Modelul vede o poză cu o pisică, iar dacă toate celelalte poze cu pisici nu seamănă foarte mult, modelul decide că nu este o pisică, deși evident că nu este Pentru a preveni rețeaua neuronală să se comporte astfel, încărcăm proba de control în domiload py, adică într-o serie de imagini cu pisici și pești care nu sunt în setul de date de antrenament La sfârșitul fiecărui ciclu de pregătire (cunoscut și ca o epocă), comparăm acest set pentru a ne asigura că rețeaua nu a făcut o greșeală Nu vă alarmați, codul pentru această verificare este incredibil de simplu: este același cod cu câteva nume de variabile schimbate: val data path = " /val/" val data = torchvision datasets ImageFolder(root=val data path, transform=transforms) Am folosit doar lanțul de transformări în loc să-l definim din nou Capitolul • Clasificarea imaginilor cu PyTorch Pe lângă setul de date de validare, trebuie să creăm și un set de date de validare Este folosit pentru a testa modelul după finalizarea întregului antrenament: test data path = " /test/" test data = torchvision datasets ImageFolder(root=test data pathJ transform=transforms) La prima vedere, diferitele tipuri de seturi pot părea complexe și confuze, așa că am întocmit un tabel pentru a indica ce parte a antrenamentului folosește fiecare set (Tabelul ) Tabelul Tipuri de seturi de date Set de antrenament Utilizat în antrenament pentru a actualiza modelul Set de validare Folosit pentru a evalua modul în care modelul face inferențe pentru un domeniu de problemă, nu pentru învățare; nu este folosit pentru a actualiza direct modelul Set de date de testare Setul de date final care oferă o estimare finală a performanței modelului după finalizarea antrenamentului Acum putem crea încărcătoare de date cu încă câteva linii de cod Python: batch size= train data loader = data DataLoader(train data, batch size=batch size) val data loader = data DataLoader(val data, batch size=batch size) test data loader = data DataLoader(test data, batch size)=batch size Nouă și demnă de menționat în acest cod este comanda batch size Ne spune câte imagini vor trece prin rețea înainte să o antrenăm și să o actualizăm Teoretic, am putea atribui o dimensiune batch size unei serii de imagini din seturile de date de testare și antrenament, astfel încât rețeaua să vadă fiecare imagine înainte de actualizare În practică, acest lucru nu se face, de obicei, deoarece loturile mai mici (cunoscute mai frecvent ca mini-loturi în literatură) necesită mai puțină memorie și nu este nevoie să stocați toate informațiile despre fiecare imagine din setul de date, iar o dimensiune mai mică a lotului are ca rezultat învățare mai rapidă, deoarece rețeaua se actualizează mult mai repede Pentru încărcătoarele de date PyTorch, batch size este setată implicit la Cel mai probabil veți dori să modificați acest lucru Deși am ales , puteți experimenta Dificultate standard înțelegeți câte minipachete pot fi folosite fără a rămâne fără memorie GPU Experimentați cu câteva opțiuni avansate: de exemplu, puteți specifica cum vor fi eșantionate seturile de date, dacă întregul setul de date va fi amestecat de fiecare dată când este rulat și câte procese de lucru sunt utilizate pentru a extrage date din setul de date Toate acestea pot fi găsite în documentația RuTorch (https://oreil ly/XORsl) Este vorba despre transferul de date către PyTorch, așa că să ne imaginăm acum o simplă rețea neuronală care va începe să ne clasifice imaginile Și în sfârșit, rețeaua neuronală! Vom începe cu cea mai simplă rețea de deep learning, stratul de intrare, care va funcționa cu tensorii de intrare (imaginile noastre); un strat de ieșire de mărimea numărului claselor noastre de ieșire ( ); și un strat ascuns între ele În primul exemplu, vom folosi straturi complet conectate Pe fig Figura prezintă un strat de intrare de trei noduri, un strat ascuns de trei noduri și o ieșire de două noduri În acest exemplu, fiecare nod dintr-un strat afectează nodul din stratul următor și fiecare conexiune are o greutate care determină puterea semnalului de la acel nod la stratul următor (Aceste ponderi vor fi actualizate atunci când antrenăm rețeaua, de obicei dintr-o inițializare aleatorie ) Pe măsură ce intrarea trece prin rețea, noi (sau PyTorch) putem pur și simplu să înmulțim prin matrice ponderile și părtinirile acelui strat cu intrarea Înainte de a le trece la următoarea funcție, acest rezultat intră într-o funcție de activare, care este doar o modalitate de a introduce neliniaritatea în sistemul nostru Orez Rețea neuronală simplă Capitolul • Clasificarea imaginilor cu PyTorch Funcții de activare Funcția de activare sună complicată, dar cea mai comună funcție de activare pe care o veți vedea în zilele noastre este ReLU, sau Rectified Linear Unit Din nou inteligent! Dar aceasta este doar o funcție care implementează max( ,x), deci rezultatul este dacă intrarea este negativă, sau doar intrarea (n) dacă x este pozitivă Totul este simplu! Cealaltă funcție de activare pe care o veți întâlni cel mai probabil este funcția logistică multivariată (softmax), care este puțin mai complexă din punct de vedere matematic Practic, generează un set de valori de la la care se adună până la (probabilități!), și ponderează valorile în așa fel încât să mărească diferența, adică produce un rezultat în vector care va fi mai mare decât toate celelalte Veți vedea adesea că este folosit la sfârșitul unei rețele de clasificare pentru a vă asigura că rețeaua face un fel de predicție despre ce clasă crede că îi aparține intrarea Acum că avem toate aceste blocuri, putem începe să construim prima noastră rețea neuronală Crearea unei rețele neuronale Construirea unei rețele neuronale în PyTorch este ca programarea în Python Moștenim dintr-o clasă numită torch nn Network și completăm metodele init și forward: clasa SimpleNet(nn Module): def init (seif): super(Net, seif) init () seif fel = nn Linear( , ) self fc = nn Linear( , ) self fc = nn Linear( , ) def forward(self): x = x vedere(-l, ) x = F relu(self fcl(x)) x = F relu(self fc (x)) x = F softmax(self fc (x)) întoarce x simplenet = SimpleNet() Și în sfârșit, rețeaua neuronală! Repet, e ușor Facem setările necesare în init(), în acest caz numim constructorul de superclasă și trei straturi complet conectate (numite Linear în PyTorch, ele se numesc Dense în Keras) Metoda forward() descrie modul în care datele sunt transmise prin rețea atât în formare, cât și în predicție (inferențăj În primul rând, trebuie să transformăm un tensor D (x și y plus informații de culoare pe canale - roșu, verde, albastru) într-o imagine - atentie !- unui tensor unidimensional astfel incat sa poata fi trecut la primul strat Linear, si facem asta cu viee() Deci aplicam straturile si functiile de activare in ordine, returnand iesirea softmax pentru a obtine predictia pentru această imagine Numerele din straturile ascunse sunt arbitrare, cu excepția rezultatului ultimului strat, care este , care se potrivește cu cele două clase ale noastre, pisici sau pești Doriți ca datele din straturi să se micșoreze pe măsură ce devin mai mici pe stivă Dacă stratul trece, să zicem, de la de intrări la de ieșiri, atunci rețeaua poate învăța prin simpla trecere a de conexiuni la cincizeci din o sută de ieșiri și își poate considera treaba terminată Prin reducerea dimensiunii ieșirii în raport cu intrarea, forțăm această parte a rețelei să învețe reprezentativitatea intrării inițiale cu mai puține resurse, ceea ce înseamnă, probabil, că rețeaua identifică unele caracteristici distinctive ale imaginilor, cum ar fi învățarea recunoaște o înotătoare sau o coadă Avem o predicție și o putem compara cu etichetarea reală a imaginii originale pentru a vedea dacă a fost corectă Dar avem nevoie de o modalitate de a permite lui PyTorch să cuantifice nu numai corectitudinea sau incorectitudinea predicției, ci și cât de corectă sau incorectă este aceasta Aceasta este ceea ce face funcția de pierdere Funcții de pierdere Funcțiile de pierdere sunt unul dintre elementele cheie ale unei soluții eficiente de deep learning PyTorch folosește funcții de pierdere pentru a determina modul în care va actualiza rețeaua pentru a obține rezultatele dorite Capitolul • Clasificarea imaginilor cu PyTorch Puteți face funcția de pierdere simplă sau complexă PyTorch include un set complet care acoperă majoritatea cazurilor pe care le puteți întâlni Și îl puteți scrie oricând singur dacă aveți un domeniu non-standard Aici vom folosi funcția de pierdere încorporată numită CrossEntropyLoss Este recomandat pentru sarcinile de categorizare multiclasă, cum ar fi cele descrise în această carte O altă funcție de pierdere pe care probabil o veți întâlni este MSELoss, care este o eroare pătratică medie standard pe care o puteți utiliza în predicția numerică Nu uitați că CrossEntropyLoss include și soft max(), așa că metoda forward() arată astfel: def forward(self): # Convertiți în vector D x = x viey(- , ) x = f relu(seif fcl(x)) x = F relu(seif fc (x)) x = sine fc (x) întoarce x Acum să vedem cum sunt actualizate straturile rețelei neuronale în timpul ciclului de antrenament Optimizare Antrenamentul în rețea implică trecerea datelor prin rețea, folosind o funcție de pierdere pentru a determina diferența dintre predicție și etichetarea reală și apoi utilizarea acelei informații pentru a actualiza ponderile rețelei, astfel încât randamentul funcției de pierdere să fie cât mai mic posibil Pentru a efectua actualizări în rețeaua neuronală, folosim un optimizator Dacă ar exista o singură greutate, am reprezenta grafic valoarea pierderii în raport cu valoarea greutății, care ar arăta ceva ca cea prezentată în Fig Dacă pornim de la punctul aleator marcat în Fig cu un semn X, cu o valoare a greutății pe axa x și o funcție de pierdere pe axa y, găsiți punctul cel mai de jos al curbei pentru a determina soluția optimă Noi Și în sfârșit, rețeaua neuronală! putem merge înainte prin modificarea valorii greutății, ceea ce va da o nouă valoare pentru funcția de pierdere Pentru a vedea cât de bine progresăm, putem verifica gradientul curbei O modalitate obișnuită de a vizualiza un optimizator este să ne gândim la el ca pe o marmură rulantă care va tinde către punctul cel mai de jos (sau jos) al jgheaburilor Poate că va fi mai clar dacă creăm un grafic tridimensional, așa cum se arată în Fig Și în acest caz, putem verifica pantele tuturor mișcărilor posibile în fiecare punct și o putem alege pe cea care ne mișcă cel mai mult în jos pe creasta Trebuie luate în considerare câteva puncte importante Prima este capcana minimelor locale, zone care par a fi cele mai joase părți ale curbei de pierdere atunci când se verifică pante, dar de fapt zonele inferioare sunt în alte părți ale curbei Dacă ne întoarcem la curba noastră unidimensională din Fig , vom vedea că dacă facem un mic salt în jos în punctul minim din stânga, nu va exista niciun motiv să părăsim această poziție Și dacă facem un salt mare, vom fi pe poteca care duce la punctul cel mai de jos, dar pe măsură ce continuăm să facem sărituri atât de mari, fluctuațiile persistă peste tot Mărimea saltului nostru se numește rata de învățare și este adesea parametrul cheie care trebuie reglat pentru o învățare adecvată și eficientă Veți învăța despre cum să determinați o rată bună de învățare în Capitolul , dar deocamdată să experimentăm cu alte valori: încercați , de exemplu O rată mare de învățare va duce la sărituri omniprezente în timpul antrenamentului și nu va converge cu setul adecvat de greutăți Greutate Orez Graficul pierderilor D Capitolul • Clasificarea imaginilor cu PyTorch Orez Graficul pierderilor D În ceea ce privește problema minimelor locale, trebuie să se facă o ușoară modificare în selectarea gradienților posibili și să se specifice gradienții aleatoriu eșantionului în momentul procesării lotului Aceasta este o abordare tradițională pentru optimizarea rețelelor neuronale și a altor metode de învățare automată numite Stochastic Gradient Descent (SGD) Dar există și alți optimizatori care sunt mai potriviti pentru învățarea profundă PyTorch include SGD și alți optimizatori precum AdaGrad și RMSProp, precum și optimizatorul Adam, pe care îl vom folosi în principal Una dintre îmbunătățirile cheie care este disponibilă datorită optimizatorului Adam (precum și RMSProp și AdaGrad) este că folosește rata de învățare pe un parametru și se adaptează în funcție de rata de modificare a acestor parametri Adam salvează o listă de gradienți în scădere exponențială și un pătrat de gradienți și le folosește pentru a scala rata globală de învățare la care lucrează S-a dovedit empiric că Adam depășește majoritatea celorlalți optimizatori pentru rețelele de învățare profundă, dar îl puteți înlocui cu SGD, RMSProp sau orice alt optimizator pentru a vedea dacă utilizarea altor optimizatoare oferă beneficii de învățare mai rapide și mai bune pentru cazul dvs Și în sfârșit, rețeaua neuronală! Crearea unui optimizator bazat pe optimizatorul Adam este foarte simplă Apelăm optim Adam() și transmitem ponderile rețelei pe care le va actualiza (obținute prin simplenet parameters()) și exemplul nostru de rata de învățare de , : import lanternă optim ca optim optimizator = optim Adam(simplenet parameters(), lr= ) Optimizatorul este ultima piesă a puzzle-ului și acum putem începe în sfârșit antrenarea rețelei Educaţie Iată un ciclu complet de pregătire, care include tot ce ai nevoie pentru antrenament, despre care am scris deja O vom scrie ca funcție, astfel încât funcția de pierdere și optimizatorul să poată fi transmise ca parametri În acest moment, totul pare destul de formulatic: pentru epocă în interval (epoci): pentru lot în train loader: optimizer zero grad() input, target = lot output = model(input) loss = loss fn(output, target) loss backward() optimizer step() Pare simplu, dar ar trebui să fiți atenți la câteva puncte Luăm un lot din setul de antrenament la fiecare iterație a buclei, care este procesat de încărcătorul de date Apoi îl trecem prin model și calculăm pierderile din rezultatul așteptat Pentru a calcula gradienții, apelăm metoda backward() Metoda optimizer step() folosește ulterior acești gradienți pentru a ajusta ponderile discutate în secțiunea anterioară Ce face zero grad()? De fapt, gradienții calculati sunt acumulați în mod implicit, ceea ce înseamnă că, dacă nu am reseta gradienții la sfârșitul unei iterații de pachet, următorul pachet ar funcționa cu gradienții acelui pachet, precum și cu propriile gradienți, iar pachetul ar fi apoi Capitolul • Clasificarea imaginilor cu PyTorch cele două anterioare ar trebui să fie procesate și așa mai departe Acesta este un minus, deoarece doar gradienții pachetului curent sunt necesari pentru optimizare în fiecare iterație Folosim zero grad() pentru a ne asigura că este zero când terminăm cu bucla Aceasta este o versiune simplificată a buclei de învățare, dar înainte de a scrie funcția completă, mai este un lucru de luat în considerare Lucrează la GPU Dacă ați rulat deja un cod, este posibil să fi observat că nu este rapid Ce zici de un GPU minunat instalat pe copia noastră în cloud (sau pe un computer foarte scump pe care l-ai construit)? În mod implicit, PyTorch face calcule bazate pe CPU Pentru a profita de GPU, trebuie să mutați tensorii de intrare și modelul în sine în GPU folosind metoda to() Iată un exemplu care copiază SimpleNet pe GPU: dacă torch cuda is available(): device = torch device("cuda") altfel device = torch device("cpu") model to (dispozitiv) Copiem acum modelul pe GPU dacă PyTorch spune că este disponibil sau, în caz contrar, îl salvăm pe CPU În acest fel, putem determina dacă GPU-ul este gata să funcționeze inițial și să utilizăm tensorul I model to(device) în tot restul programului, asigurându-ne că codul merge la locul potrivit Aceasta completează toți pașii necesari pentru învățare Aproape am ajuns! Versiunile anterioare ale PyTorch foloseau metoda cuda() pentru a copia datele pe GPU Dacă întâlniți această metodă în timp ce răsfoiți codul scris de alți programatori, rețineți că face același lucru ca și to()! Antrenament Punând totul împreună Ați văzut multe bucăți diferite de cod în acest capitol, așa că haideți să le punem împreună Facem acest lucru pentru a crea o metodă de antrenament generică care acoperă modelul, precum și setul de date de instruire și validare, inclusiv rata de învățare și parametrii de dimensiune a lotului Vom folosi următorul cod pentru restul cărții: def train(model, optimizator, loss fn, train loader, val loader, epochs= , device="cpu"): pentru epocă în interval (epoci): training loss = , pierdere validă = , model train() pentru lot în train loader: optimizer zero grad() intrări, țintă = lot inputs = inputs to(device) target = targets to(device) output = model(inputs) loss = loss fn(output, target) loss backward() optimizer step() training loss += loss data item() training loss /= len(train iterator) model eval() num correct = num examples = pentru lot în val loader: inputs, targets = lot intrări = inputs to(device) output = model(inputs) targets = targets to(device) loss = loss fn(output,targets) valid loss += loss data item() corect = torch eq (torch max(F softmax(ieșire), dim=l)[l], target) view(- ) num correct += torch sum(corect) item() num examples += corect shape[ ] valid loss /= len(valid iterator) print('Epoca: {}, Pierdere la antrenament: {: f}, Pierdere de validare: {: f}, acuratețe = {: f}' format(epoch, training loss, valid loss, num correct / num examples)) Capitolul • Clasificarea imaginilor cu PyTorch Aceasta este funcția noastră de antrenament și putem începe antrenamentul apelând-o cu parametrii necesari: train(simplenet, optimizator, torch nn CrossEntropyLoss(), train data loader, test data loader,device) Va dura de epoci pentru a antrena rețeaua (puteți ajusta acești parametri trecând o valoare pentru epoch la trainQ), iar la sfârșitul fiecărei epoci, trebuie să obțineți rezultatele de precizie a modelului pentru proba de control V-ați antrenat prima rețea neuronală - felicitări! Acum poate fi folosit pentru prognoză, așa că haideți să vedem cum se face Prognoza La începutul capitolului, am spus că creăm o rețea neuronală care ar putea determina dacă o imagine este o pisică sau un pește Acum am antrenat rețeaua neuronală, dar ce să facem în continuare pentru a genera o predicție pentru o singură imagine? Iată un mic fragment Python care va încărca o imagine din sistemul de fișiere și va arăta dacă rețeaua noastră vorbește "pisică" sau "pește" din imaginea de import PIL etichete = ['pisica','peste'] img = Image open(FILENAME) img = transform(img) img = img unsqueeze( ) predicție = simplenet(img) prediction = prediction argmax() print(etichete[predicție]) Majoritatea acestui cod este simplu; reutilizam conducta de transformare creată mai devreme pentru a transforma imaginea în forma corectă pentru rețeaua neuronală Dar, deoarece rețeaua folosește pachete, se așteaptă de fapt un tensor cu patru dimensiuni, unde prima dimensiune denotă diferitele imagini din pachet Avem Punând totul laolaltă nu există niciun pachet, dar este posibil să creați un pachet cu lungimea folosind unsqueeze( ), care adaugă o nouă dimensiune la începutul tensorului nostru Obținerea de predicții este la fel de ușor ca și transmiterea unui lot la model Apoi trebuie să determinăm clasa cu cea mai mare probabilitate În acest caz, puteți pur și simplu să convertiți tensorul într-o matrice și să comparați cele două elemente, dar sunt adesea multe altele Din fericire, PyTorch are o funcție argmax() care returnează indexul celei mai mari valori tensorului Apoi îl folosim pentru a indexa în gama noastră de etichete și pentru a obține o predicție Ca practică, folosiți codul anterior ca bază pentru dezvoltarea predicțiilor pentru setul de date de testare despre care am scris la începutul capitolului Nu trebuie să utilizați unsqueeze() deoarece primiți pachete de la test data loader Acesta este tot ce trebuie să știți despre prognoză în această etapă; vom reveni la el în capitolul când informațiile de dezvoltare devin mai complexe Pe lângă predicții, cel mai probabil veți dori să puteți reîncărca modelul în orice moment, păstrând parametrii antrenați, așa că să înțelegem cum se face acest lucru în PyTorch Salvarea unui model Dacă sunteți mulțumit de performanța modelului sau dacă trebuie să faceți o pauză dintr-un motiv oarecare, puteți salva starea actuală a modelului într-un format Python murat folosind lanterna Salvați() În schimb, este posibil să încărcați o iterație de model salvată anterior folosind lanterna sarcină() Salvarea parametrilor actuali și a structurii modelului va arăta astfel: torch save(simplenet, "/tmp/simplenet") Puteți reîncărca după cum urmează: simplenet = torch load("/tmp/simplenet") Acesta este modul în care salvați atât parametrii, cât și structura modelului într-un fișier Dacă modificați structura modelului într-o etapă ulterioară, lucrurile pot deveni complicate Prin urmare, practica mai comună de conservare Capitolul • Clasificarea imaginilor cu PyTorch al modelului este state dict Acesta este un dict Python standard care conține hărțile parametrilor fiecărui strat din model Salvarea state dict arată astfel: torch save(model state dict(), PATH) Pentru a restaura un model, mai întâi instanțiați modelul și apoi utilizați load state dict Pentru SimpleNet: simplenet = SimpleNet() simplenet state dict = torch load("/tmp/simplenet") simplenet load state dict(simplenet state dict) Avantajul este că, dacă extindeți modelul într-un fel, puteți seta parametrul strict=False la load state dict , care atribuie parametri straturilor din model care există în state dict, dar nu aruncă o eroare dacă straturile din state dict încărcate sunt lipsă sau adăugată din structura actuală a modelului Deoarece este doar un dict Python obișnuit, puteți schimba numele cheilor pentru a se potrivi cu modelul, ceea ce este la îndemână dacă extrageți parametri dintr-un model complet diferit Modelele pot fi salvate pe disc în timpul unui ciclu de antrenament și repornite la un alt moment, astfel încât antrenamentul să poată continua acolo unde a rămas Aceasta este o opțiune foarte utilă atunci când utilizați ceva precum Google Colab, care vă oferă acces constant la GPU timp de aproximativ ore Urmărind timpul, puteți salva modelul înainte de oprire și puteți continua antrenamentul într-o nouă sesiune de ore Concluzie Am aruncat o privire rapidă asupra elementelor de bază ale rețelelor neuronale și am învățat cum puteți să vă antrenați cu PyTorch pe un set de date, să faceți predicții asupra altor imagini și să salvați/restaurați modele pe și de pe disc Înainte de a trece la următorul capitol, experimentați cu arhitectura SimpleNet pe care am creat-o aici Reglați cantitatea Concluzia opțiunile din Straturile Liniare și adăugați încă unul sau două straturi, dacă este posibil Aruncă o privire la diferitele funcții de activare disponibile în PyTorch și schimbă ReLU cu altceva Vedeți ce se întâmplă dacă ajustați rata de învățare sau utilizați un alt optimizator în loc de Adam (încercați SGD de bază) Poate fi necesar să modificați dimensiunea lotului și dimensiunea originală a imaginii, deoarece aceasta este convertită într-un tensor unidimensional la începutul trecerii înainte Învățarea profundă este încă în stadiul de dezvoltare; depanarea ratei de învățare se face manual până când rețeaua este antrenată corespunzător, așa că este bine să înțelegeți cum interacționează toate părțile acesteia S-ar putea să fiți dezamăgit de acuratețea arhitecturii SimpleNet, dar nu vă descurajați! În capitolul , veți învăța câteva trucuri și veți vedea o rețea neuronală convoluțională în loc de rețeaua foarte simplă pe care am folosit-o până acum Surse suplimentare ■ Documentația PyTorch, https://pytorch org/docs/stable/index html ■ "Adam: A Method for Stochastic Optimization", Diederik P Kingma și Jimmy Ba ( ), https://arxiv org/abs/ ■ "O prezentare generală a algoritmilor de optimizare a coborârii gradientului", Sebastian Ruder ( ), https://arxiv org/abs/ CAPITOLUL Rețele neuronale convoluționale Pe măsură ce ați experimentat cu rețele neuronale complet conectate în capitolul , probabil ați observat ceva Dacă încercați să adăugați mai multe straturi sau să creșteți semnificativ numărul de parametri, cel mai probabil GPU-ul va rămâne fără memorie În plus, a fost nevoie de ceva timp pentru a antrena rețeaua cu ceva care să ofere o acuratețe decentă și chiar și acest lucru nu este suficient, mai ales cu toată această entuziasm despre învățarea profundă Deci care e treaba? O rețea complet conectată (preemptivă) poate funcționa într-adevăr ca un aproximator universal, dar teoria nu spune cât timp va dura pentru a antrena rețeaua într-o astfel de aproximare a funcției care este cu adevărat necesară Dar putem îmbunătăți totul, mai ales când vine vorba de imagini În acest capitol, veți afla despre rețelele neuronale convoluționale (CNN) și despre modul în care acestea formează baza celor mai precise clasificatoare de imagini de astăzi (și vă uitați la unele dintre ele) Vom crea o nouă arhitectură bazată pe rețele convoluționale pentru aplicația noastră pești sau pisici și vei vedea că rețeaua poate fi antrenată mai rapid și mai precis decât în capitolul anterior Să începem! Primul model convoluțional De data aceasta, vă voi prezenta arhitectura modelului final, apoi vă voi oferi noi informații Și așa cum am menționat în capitolul , metoda de învățare creată de noi este agnostică a modelului, așa că puteți testa mai întâi modelul și apoi citiți explicațiile! clasa CNNNet(nn Module): def init (seif, num classes= ): Primul model convoluțional super(CNNNet, seif) init () seif features = nn Sequential( nn Conv d( , , kernel size=ll, stride= , padding= ), nn ReLU(), nn MaxPool d(kernel size= , stride= ), nn Conv d( , , kernel size= , padding= ), nn ReLU(), nn MaxPool d(kernel size= , stride= ), nn Conv d( , , kernel size= , padding=l), nn ReLU(), nn Conv d( , , kernel size= , padding=l), nn ReLU(), nn Conv d( , , kernel size= , padding=l), nn ReLU(), nn MaxPool d(kernel size= , stride= ), ) self avgpool = nn AdaptiveAvgPool d(( , )) seif clasifier = nn Sequential( nn Droout(), nn Liniar( * * , ), nn ReLU(), nn Droout(), nn Linear( , ), nn ReLU(), nn Linear( , num classes) ) def înainte(self, x): x = seif caracteristici(x) x = seif avgpool(x) x = aplatizare torță (x, ) x = seif clasificator(x) întoarce x Primul lucru de remarcat este utilizarea modulului nn Sequential() Deci putem crea un lanț de straturi Când folosim unul dintre aceste lanțuri în forward(), intrarea trece prin fiecare element al matricei de straturi în secvență În acest fel, vă puteți împărți modelul în structuri de date mai logice, ordonate În această rețea, avem două lanțuri: un bloc de caracteristici și un bloc de clasificare Să aruncăm o privire la noile straturi pe care le introducem începând cu Conv d Convoluții Stratul Conv d este o convoluție D Dacă avem o imagine în tonuri de gri, aceasta constă dintr-o matrice de x pixeli lățime și y pixeli înălțime, fiecare intrare având o valoare indicând dacă Capitolul • Rețele neuronale convoluționale indiferent dacă este alb sau negru sau ceva între ele (ne bazăm pe o imagine de biți, deci fiecare valoare poate varia de la la ) În acest exemplu, vom lua în considerare o imagine pătrată mică, care are pixeli înălțime și lățime: " și ' În continuare, introducem ceva numit filtru sau nucleu de convoluție Aceasta este o altă matrice, cel mai probabil una mai mică, pe care o vom trage în jurul imaginii noastre Iată filtrul nostru x : O O Pentru ieșire, luăm un filtru mai mic și îl suprapunem peste intrarea originală, ca o lupă peste o bucată de hârtie Începând din colțul din stânga sus, primul calcul arată astfel: Și tot ce facem este să înmulțim fiecare element din matrice cu termenul său corespunzător din cealaltă matrice și să adunăm rezultatul: ( x i) + + ( x ѳ) + ( x i) + ( x ѳ) = Atunci mutați filtrul și începeți din nou Dar cât de departe trebuie mutat filtrul? În acest caz, mutăm filtrul cu , așa că al doilea calcul arată astfel: Ajungem la o valoare de Acum mutam filtrul in jos si inapoi la stanga si repetam procesul pentru a obtine rezultatul final (sau harta caracteristicilor)' Primul model convoluțional Pe fig Puteți vedea cum funcționează acest lucru în Figura : nucleul > MjxPoOi Orez VGG- СopѵУІЖ SolzhZ MazhRooi eu ConvJ- Compoziția S Sop*E MdaRooi SsgmZ- ConvMU ConMU SegnShI Canvz SopZ- Ma și loss > * best loss: return log lrs[ :- ], losses[ :- ] # Înregistrați cel mai bun rezultat de pierdere dacă pierdere >> transforms Compose([ >>> transforms ToTensor(), >>> Zgomot ( , , , )), ">]) def init (seif, mean, stddev): self mean = însemnătate seif stddev = stddev def caii (seif, tensor): zgomot = torch zeros like(tensor) normal (self mean, seif stddev) return tensor add (noise) def repr (seif): repr = f"{self class name }(mean={self mean}, stddev={self stddev})" retur repr Capitolul • Transferul de învățare și alte trucuri Dacă adăugăm acest lucru la conductă, vom vedea rezultatele apelării metodei serg : transformă Compune([Zgomot( , , , ))]) >> Compune( Zgomot (medie= , ,sttdev= , ) ) Deoarece conversiile nu au restricții și pur și simplu moștenesc din clasa de bază a obiectului Python, puteți face orice Doriți să înlocuiți complet imaginea în timpul execuției cu una dintre imaginile Google? Rulați o imagine printr-o rețea neuronală complet diferită și transmiteți rezultatul? Aplicați o serie de transformări de imagine care transformă imaginea într-o umbră reflectorizantă nebună? Toate acestea sunt posibile și chiar necesare Ar fi interesant de văzut dacă efectul Twirl al Photoshop degradează sau îmbunătățește acuratețea De ce să nu încerci? Pe lângă transformări, există câteva alte modalități de a obține cât mai multă performanță dintr-un model Să ne uităm la alte exemple Începe cu mai puțin și obține mai mult! Acest sfat poate părea ciudat, dar chiar funcționează: începe cu mai puțin și obține mai mult Adică, dacă te antrenezi pe imagini de x , creați mai multe seturi de date în care imaginile ar fi scalate la x și x Creați-vă modelul cu un set de date de x , depanați-l ca de obicei și apoi antrenați exact același model cu un set de date x Nu de la zero, ci folosind parametrii care au fost deja antrenați După ce obțineți maximul din setul de date de x , treceți la datele țintă de x Probabil veți găsi o îmbunătățire a preciziei cu un punct procentual sau două Deși nu știm exact de ce funcționează acest lucru, ipoteza este că, prin antrenament la rezoluții mai mici, modelul învață despre structura generală a imaginii și poate procesa aceste cunoștințe pe măsură ce imaginile cresc Mărirea datelor Acesta este un avantaj dacă trebuie să profitați la maximum de model Dacă nu doriți ca mai multe copii ale setului de date să atârne în stocare, utilizați transformări torchvision Acest lucru se face folosind funcția Redimensionare: resize = transforms Compose([ transforms Resize( ), alte transformări de augmentare transforms ToTensor(), transformă Normalizare([ , , , , , ], [ , , , , , ]) Dar va trebui să plătiți pentru asta și să petreceți mai mult timp învățând, deoarece PyTorch trebuie să aplice de fiecare dată redimensionarea Dacă ați redimensionat toate imaginile în avans, atunci cel mai probabil antrenamentul va fi mai rapid datorită umplerii hard disk-ului Dar nu este așa întotdeauna? Acest concept de "începe mic și devine mare" se aplică și arhitecturii Utilizarea unei arhitecturi ResNet precum ResNet- sau ResNet- pentru a testa abordările de transformare și a înțelege cum funcționează învățarea oferă un feedback mult mai bogat decât utilizarea unui model ResNet- sau ResNet- Începeți mic, mergeți în sus și, teoretic, puteți reutiliza execuții mai mici de model atunci când faceți predicții adăugându-le la modelul de ansamblu Ansambluri Ce poate fi mai bun decât un model predictiv? Ei bine, ce zici de câteva? Asamblarea este o tehnică destul de comună în metodele tradiționale de învățare automată și funcționează la fel de bine în învățarea profundă Ideea este de a obține o predicție dintr-un număr de modele și de a le combina pentru a obține răspunsul final Deoarece modele diferite vor avea avantaje diferite în domenii diferite, presupunem că combinarea tuturor predicțiilor lor va da un rezultat mai precis decât un singur model Capitolul • Transferul de învățare și alte trucuri Există multe abordări ale ansamblurilor, dar nu le vom descrie în detaliu aici Iată o modalitate ușoară de a începe cu ansamblurile, care, din experiența mea, vă oferă încă o precizie de %, doar o medie a predicțiilor: # Presupunând că aveți o listă de modele în modele, # iar intrarea este tensorul dvs de intrare predictions = [m[i] fit(input) for i in model] avg prediction = torch stack(b) mean( ) argmax() Metoda stivei agregează o serie de tensori, așa că dacă am lucra la o problemă de pisică/pește și am avea patru modele în ansamblul nostru, am ajunge cu un tensor x construit din patru tensori x Și înseamnă că face ceea ce vrei m-am aștepta: ia valoarea medie, deși dimensiunea ar trebui să fie transmisă pentru a se asigura că media ia media peste prima dimensiune, în loc să însumeze pur și simplu toate elementele tensorului și să producă o ieșire scalară În cele din urmă, așa cum ați văzut mai devreme, argmax selectează indicele tensorului cu elementul cel mai înalt Este ușor să ne imaginăm abordări mai complexe Poate că se pot adăuga ponderi la predicția fiecărui model individual, iar acele ponderi pot fi ajustate dacă modelul primește un răspuns corect sau incorect Ce modele sa folosesti? Am descoperit că combinațiile ResNet (de exemplu, , , ) funcționează destul de bine și nimic nu te împiedică să-ți salvezi în mod regulat modelul și să folosești diferite instantanee de model în ansamblul tău! Concluzie Când ajungem la sfârșitul capitolului , ne luăm la revedere imaginilor pentru a trece la text Sper că nu numai că ați înțeles cum funcționează rețelele neuronale convoluționale cu imagini, dar ați învățat și multe trucuri utile, inclusiv învățarea prin transfer, detectarea ratei de învățare, creșterea datelor și ansamblul pe care le puteți utiliza în aplicația dvs Concluzia Surse suplimentare Dacă sunteți interesat să aflați mai multe despre imagini, consultați cursul fast ai susținut de Jeremy Howard, Rachel Thomas și Sylvain Gugger După cum am menționat, definiția ratei de învățare din acest capitol este o versiune simplificată a metodei pe care o folosesc Acest curs conține informații mai detaliate despre multe dintre tehnicile din acest capitol Biblioteca fast ai, construită pe PyTorch, face ușor de utilizat afișajele (și textul!) ■ Documentația Torchvision, https://oreil ly/vNnST ■ Documentația PIL/Pillow, https://oreil ly/Jlisb ■ Rate ciclice de învățare pentru formarea rețelelor neuronale, Leslie N Smith ( ), https://arxiv org/abs/ ■ ColorNet: Investigating the Importance of Color Spaces for Image Classification, Shreyank N Gowda și Chun Yuan ( ), https://arxiv org/abs/ CAPITOLUL Clasificarea textelor Deci, să lăsăm imaginile în pace și să ne îndreptăm atenția către un alt domeniu în care metodele tradiționale de învățare profundă au avansat semnificativ Este vorba despre procesarea limbajului natural (NLP) Un bun exemplu este Google Translate Inițial, codul care s-a ocupat de traducere a fost de de linii de cod considerabile Noul sistem bazat pe TensorFlow este de aproximativ și are performanțe mai bune decât vechea metodă Descoperiri recente au avut loc și în domeniul aplicării învățării prin transfer (despre care ați aflat în capitolul ) la problemele NLP Noile arhitecturi, cum ar fi Transformer, au condus la rețele similare cu GPT- de la OpenAI, o versiune mai mare a căreia produce text aproape comparabil ca calitate cu textul uman (de fapt, OpenAI nu a eliberat greutatea acestui model de teama unei utilizări greșite) În acest capitol, vom arunca o scurtă privire asupra rețelelor neuronale recurente și a înglobărilor Ne vom uita apoi la biblioteca torchtext și la modul în care poate fi utilizată pentru a procesa text cu un model bazat pe LSTM Rețele neuronale recurente Dacă ne întoarcem la modul în care am folosit arhitecturile bazate pe CNN până acum, putem vedea că acestea au rulat întotdeauna la un moment dat Să ne uităm la două sugestii: Pisica s-a așezat pe saltea Se ridică și se urcă nerăbdătoare pe scaun, miaunând după mâncare Rețele neuronale recurente Traducere: Această pisică stătea pe covor S-a ridicat și, miaunând, a sărit nerăbdătoare pe un scaun, cerând mâncare Să presupunem că trebuie să lipiți aceste două propoziții, una după alta, în CNN și să întrebați unde este pisica? Veți avea dificultăți, deoarece rețeaua nu are concept de memorie Acest lucru este incredibil de important atunci când aveți de-a face cu date din domeniul timpului (cum ar fi text, vorbire, video și date temporale) Rețelele neuronale recurente (RNN) rezolvă această problemă oferind memoriei rețelei neuronale printr-o stare ascunsă Ce este RNN? Îmi place această explicație: "Imaginați-vă o rețea neuronală care se intersectează cu o buclă for " Pe fig Figura prezintă o diagramă a unei structuri RNN clasice ascuns(t) > RNN intrare(t) Orez RNN Rețineți că acest lucru nu este imposibil de făcut cu un CNN; În ultimii câțiva ani, au fost efectuate multe studii privind aplicarea rețelelor bazate pe CNN în domeniul timpului Nu le vom lua în considerare aici Pentru mai multe informații, consultați "Rețele convoluționale temporale: O abordare unificată a segmentării acțiunii" ( ), Colleen Lee Și seq seq! (https://arxiv org/abs/ ) Capitolul • Clasificarea textului Adăugăm o intrare cu un pas de timp t și obținem starea de ieșire ascunsă ht și ieșirea este, de asemenea, returnată la RNN pentru următorul pas de timp Putem implementa această rețea așa cum se arată în Fig pentru o privire mai profundă Există o grupare de straturi complet conectate (cu parametri comuni), un număr de intrări și o ieșire Intrarea este introdusă în rețea, iar următorul element din secvență este prevăzut a fi ieșirea Într-o formă extinsă, RNN poate fi gândit ca o conductă de strat complet conectată, cu intrare serială care merge la următorul strat din secvență (cu neliniaritățile obișnuite între straturi, cum ar fi ReLU) Când avem o secvență prevăzută completă, trebuie să efectuăm propagarea înapoi a erorii prin RNN Deoarece este necesar să se întoarcă înapoi, acest proces se numește propagarea înapoi a erorilor în timp Eroarea este calculată pe întreaga secvență, apoi rețeaua este derulată (vezi Figura ) și gradienții pentru fiecare pas de timp sunt calculati și combinați pentru a actualiza parametrii generali ai rețelei Imaginați-vă că faceți backpropagation pe rețele separate și însumați toate gradienții ascuns(t- ) ascuns(tl) ascuns(t) RNN RNN > RNN intrare (t- ) intrare (tl) intrare(t) Orez RNN extins Rețele neuronale recurente Aceasta este teoria RNN Dar această structură simplă are complicații care trebuie discutate Vom atinge, de asemenea, modalități de a le elimina cu ajutorul noilor arhitecturi Rețele cu memorie pe termen lung În practică, RNN-urile sunt deosebit de sensibile la problema gradientului de dispariție pe care am discutat-o în capitolul , sau la scenariul potențial cel mai rău caz de gradient exploziv, unde eroarea tinde spre infinit Nu este nimic bun în nici una, așa că RNN-urile nu erau potrivite pentru a rezolva multe dintre problemele care au fost planificate inițial să fie rezolvate cu ajutorul lor Totul s-a schimbat în , când Sepp Hochreiter și Jurgen Schmidhuber au introdus o variantă de RNN cu memorie pe termen scurt (LSTM) Pe fig este o diagramă a stratului LSTM Știu că se întâmplă multe aici, dar este dificil doar la prima vedere Serios! Capitolul • Clasificarea textului Pare destul de intimidant, sunt de acord Principalul lucru pe care trebuie să-l țineți cont sunt cele trei porți (intrare, ieșire și uitare) Într-un RNN standard, "ne amintim" totul pentru totdeauna Dar creierul nostru (din păcate!) nu funcționează așa Poarta uitare LSTM funcționează în așa fel încât, pe măsură ce lanțul nostru de intrare continuă, începutul lanțului devine mai puțin important LSTM uită ceea ce rețelele învață în timpul antrenamentului, așa că dacă rețeaua trebuie să fie foarte uituitoare, setările porții uitare vor oferi acest lucru Celula se dovedește a fi "memoria" stratului de rețea, iar porțile de intrare și de ieșire și poarta uitare vor determina modul în care datele trec prin strat Datele pot trece pur și simplu, pot fi "scrise" în celulă sau pot (sau nu!) să fie transmise următorului strat modificat de poarta de ieșire Acest lucru a fost suficient pentru a rezolva problema gradientului de dispariție și, în plus, setul este Turing complet, așa că teoretic orice calcul care poate fi făcut pe un computer poate fi făcut folosind unul dintre ele Dar, desigur, asta nu este tot Au existat câteva modificări ale LSTM de-a lungul timpului și ne vom uita la unele dintre ele în secțiunile următoare Blocuri recurente gestionate Din , au fost create multe variante ale rețelei LSTM de bază, dintre care majoritatea probabil nu trebuie să le înțelegeți Cu toate acestea, o variantă care a apărut în , Managed Recurrent Unit (GRU), merită menționată, deoarece a devenit destul de populară în unele zone Pe fig Figura prezintă structura arhitecturii GRU Concluzia principală: în GRU, poarta uitare este combinată cu poarta de ieșire Aceasta înseamnă că au mai puțini parametri decât LSTM-urile și, prin urmare, tind să învețe mai repede și să utilizeze mai puține resurse în timpul rulării Din acest motiv și, de asemenea, pentru că înlocuiesc în esență LSTM-urile, GRU-urile au devenit destul de populare Deși, sincer, îmbinarea unei porți de ieșire și a unei porți de uitare le face mai puțin puternice decât LSTM, așa că, în general, recomand să experimentați cu GRU sau LSTM în rețeaua dvs și să vedeți ce funcționează cel mai bine Sau doar accepta Rețele cu memorie lungă pe termen scurt dat fiind că LSTM poate fi puțin mai lent de învățat, dar în cele din urmă va da un rezultat mai bun Nu trebuie să urmați cele mai recente tendințe de modă - într-adevăr! biLSTM O altă variantă comună LSTM este LSTM bidirecțională sau biLSTM După cum știți deja, LSTM-urile tradiționale (și RNN-urile în general) pot "privi în trecut", deoarece sunt deja instruiți și iau decizii Din păcate, uneori trebuie să "priviți spre viitor" Acest lucru este valabil mai ales în aplicații precum traducerea și recunoașterea scrisului de mână, unde ceea ce urmează stării curente poate fi la fel de important ca starea anterioară pentru a determina rezultatul biLSTM rezolvă această problemă în cel mai simplu mod: este în esență două LSTM-uri stivuite, cu datele de intrare trimise înainte într-un LSTM și inversate în celălalt Pe fig Figura arată modul în care biLSTM funcționează bidirecțional prin intrări pentru a produce ieșiri Capitolul • Clasificarea textului Ieșire straturi biLSTM Intrare Orez biLSTM După cum veți afla mai târziu în acest capitol, PyTorch facilitează crearea biLSTM-urilor prin trecerea parametrului bidirectional=True la crearea blocului LSTM() Aceasta încheie turul nostru al arhitecturii bazate pe RNN În capitolul , vom reveni la problema arhitecturii când luăm în considerare modelele BERT și GPT- bazate pe Transformer Înglobări Suntem gata să codificăm! Dar înainte de a face asta, luați în considerare: cum reprezentăm cuvintele pe web? Introducem tensori de numere în rețea și le scoatem Când lucrați cu imagini, este destul de evident să le convertiți în tensori reprezentând parametrii roșu/verde/albastru ai componentelor și sunt deja percepute în mod natural ca matrice, deoarece au o înălțime și o lățime dată Dar ce zici de cuvinte? Promoții? Cum functioneaza? Cea mai simplă abordare rămâne aceeași pe care o veți găsi în multe abordări NLP și se numește codificare one-hot Înglobări Este destul de simplu! Să ne uităm la prima noastră propoziție de la începutul capitolului: Pisica s-a așezat pe saltea Având în vedere că acesta este întregul vocabular al lumii noastre, avem următorul tensor: [the, cat, sat, on, mat] Codificarea fierbinte înseamnă pur și simplu că creăm un vector de dimensiunea unui dicționar și pentru fiecare cuvânt din el, alocăm un vector cu un parametru setat la și restul setat la : pisica stătea pe saltea [ ] [ ] [ ] [ ] [ ] Acum am convertit cuvintele în vectori și le putem alimenta în rețeaua noastră În plus, putem adăuga caractere suplimentare la dicționarul nostru, cum ar fi UNK (necunoscut) pentru cuvintele care nu sunt în dicționar și START/STOP pentru a indica începutul și sfârșitul propozițiilor Codarea la cald are mai multe limitări, care vor deveni mai clare dacă mai adăugăm un cuvânt la vocabularul nostru: pisicuță Pe baza schemei noastre de codare, pisoiul ar fi reprezentat ca [ ] (cu toți ceilalți vectori setați la zero) În primul rând, puteți vedea că dacă vrem să modelăm un set real de cuvinte, vectorii noștri vor fi foarte lungi, lipsiți de informații În al doilea rând, și poate mai important, știm că cuvintele "pisicuță" și "pisică" sunt foarte strâns legate (la fel cu combinația "la naiba să fie!", dar, din fericire, nu este inclusă în vocabularul nostru!) și nu poate fi reprezentat cu codare la cald; aceste două cuvinte sunt complet diferite O abordare care a devenit mai populară recent este înlocuirea codării la cald cu o matrice de încorporare (codificarea la cald este matricea de încorporare în sine, care nu conține nicio informație despre relația dintre cuvinte) Ideea este să reduceți dimensiunea spațiului vectorial într-o măsură mai ușor de gestionat și să folosiți spațiul în sine Capitolul • Clasificarea textului De exemplu, dacă avem o încorporare în D, este posibil ca o pisică să fie reprezentată de tensorul [ , , , ] și un pisoi să fie reprezentat de [ , , , ], în timp ce un covor să fie reprezentat de tensor [ , , - , ] Grupăm cuvinte similare într-un spațiu vectorial și putem testa distanța, de exemplu cu funcția euclidiană sau cu funcția distanță cosinus, pentru a determina cât de aproape sunt cuvintele unul de celălalt Și cum determinăm unde se încadrează cuvintele în spațiul vectorial? Stratul de imbricare nu este diferit de orice alt strat pe care l-ați văzut până acum la construirea rețelelor neuronale; inițializam spațiul vectorial în mod aleatoriu, iar procesul de învățare actualizează parametrii astfel încât cuvinte sau concepte similare să fie atrase unul de celălalt Un exemplu faimos de încorporare vectorială este algoritmul word vec lansat de Google în Acesta a fost un set de reprezentări vectoriale ale cuvintelor antrenate folosind o rețea neuronală de nivel inferior, care arată că transformarea într-un spațiu vectorial captează conceptele din spatele cuvintelor Să luăm un exemplu binecunoscut: dacă scoți vectorii pentru cuvintele rege, bărbat și femeie (Rege, Hartă și Femeie) și apoi scădeți vectorul pentru cuvântul bărbat (Hartă) din cuvântul rege (Rege) și adăugați vectorul pentru femeie (Femeie), obțineți rezultatul, care va fi reprezentarea vectorială pentru cuvântul regina (Qiieen) De la word vec, au devenit disponibile și alte înglobări pre-antrenate, cum ar fi ELMo, GloVe iifasttext În ceea ce privește utilizarea atașamentelor în PyTorch, este simplu: embed = nn Embedding(vocab size, dimension size) Acesta va include tensorul vocab size x dimension size, inițializat aleatoriu Prefer să mă gândesc la el ca doar o matrice gigantică sau un tabel de căutare Fiecare cuvânt din dicționarul tău indexează un element care este un vector dimension size, așa că dacă ne întoarcem la pisica noastră și la aventurile ei epice pe covor, ajungem la ceva de genul acesta: cat mat embed = nn Embedding( , ) cat tensor = Tensor([l]) A se vedea "Eficient Estimation of Word Representations in Vector Space", Tomas Mikolov et al ( ) (https://arxiv org/abs/ ) Înglobări cat mat embed forward(cat tensor) > tensor([[ , , - , ]], grad fn= ) Creăm atașamentul nostru, un tensor, care conține poziția pisicii în dicționarul nostru și îl trecem prin layer-ul înainte() Deci obținem o investiție aleatorie Rezultatul indică, de asemenea, că avem o funcție de gradient care poate fi folosită pentru a actualiza parametrii după ce a fost combinată cu funcția de pierdere Acum cunoaștem toată teoria și putem trece la practică! text torță La fel ca torchvision, PyTorch oferă o bibliotecă oficială torchtext pentru lucrul cu conducte de procesare a textului Cu toate acestea, textul cu torță nu a fost testat în practică la fel ca și viziunea cu torță și i s-a acordat mult mai puțină atenție Și asta înseamnă că nu este atât de ușor de utilizat și nu este atât de cunoscut Cu toate acestea, rămâne o bibliotecă uriașă care poate face cea mai mare parte a sarcinii de a crea seturi de date text, așa că o vom folosi pentru restul capitolului Instalarea torchtext este foarte ușoară Utilizați orice pir standard: pip install torchtext sau un canal conda specializat: conda install -c derickl torchtext Dacă nu aveți spaCy (o bibliotecă NLP) și panda pe sistem, instalați-le (din nou, folosind pip sau conda) spaCy este folosit pentru a procesa textul în conducta torchtext, iar panda este folosit pentru a explora și curăța datele Capitolul • Clasificarea textului Obținerea datelor noastre: tweet-uri! În această secțiune, vom construi un model de analiză a sentimentelor, adică o analiză a sentimentului text, deci vom avea nevoie de un set de date Biblioteca torchtext oferă un set de seturi de date încorporate prin modulul torchtext seturi de date, dar vom lucra la el de la zero pentru a înțelege întregul proces de creare a propriului set de date și de trecere la modelul creat Luați setul de date Sentimentl (http://help sentimentl com/for-students) Se bazează pe tweeturi, în care fiecare tweet negativ este notat ca , neutru ca și ca pozitiv Descărcați arhiva zip și dezarhivați-o Vom lucra cu fișierul training processed noemoticon csv Să ne uităm la fișier folosind panda: importați panda ca pd tweetsDF = pd read csv ("training processed noemoticon csv", header=Niciunul) În acest moment, este posibil să vedeți o eroare ca aceasta: UnicodeDecodeError: codecul "utf- " nu poate decoda octeții în poziția - : octet de continuare nevalid Felicitări, acum sunteți un adevărat cercetător al datelor și puteți începe să vă curățați datele! Din mesajul de eroare, se pare că parserului CSV implicit bazat pe C pe care îl utilizează panda nu îi place ceva Unicode în fișier, așa că trebuie să trecem la un parser bazat pe Python: tweetsDF = pd read csv("training processed noemoticon csv", engine="python", header=Niciunul) Să ne uităm la structura datelor afișând primele cinci rânduri: >>> tweetDF head( ) NO QUERY NO QUERY NO QUERY NO QUERY NO QUERY Scotthamilton este supărat că mattycus (ȘKenichan M-am scufundat de multe ori ElleCTF îmi simte mâncărimi în tot corpul Karoli (Șnationwideclass nu, este joy wolf (ȘKwesidei nu tot echipajul text torță Din păcate, nu avem un câmp de antet în acest CSV (din nou, bine ați venit în lumea datelor!), dar uitându-ne pe site și activând intuiția, putem vedea că este ultima coloană (textul din tweet-ul) și prima coloană care ne interesează (eticheta noastră) Cu toate acestea, etichetele nu sunt perfecte, așa că hai să lucrăm puțin la asta Să vedem ce avem în setul de date de antrenament: >>> tweetsDF[ ] value counts() Nume: , dtype: int În mod curios, nu există valori neutre în setul de date de antrenament Aceasta înseamnă că am putea încadra provocarea ca o alegere binară între și și să facem predicții pe baza ei, dar deocamdată rămânem cu planul inițial conform căruia am putea avea tweet-uri neutre în viitor Pentru a codifica clasele ca numere care încep de la , mai întâi creăm o coloană de tip categorie din coloana etichetă: tweetsDF["sentiment cat"] = tweetsDF[ ] astype('categorie') Apoi codificăm acele clase ca informații numerice într-o altă coloană: tweetsDF["sentiment"] = tweetsDF["sentiment cat"] cat codes Apoi salvăm CSV-ul modificat înapoi pe disc: tweetsDF to csv("train-processed сsv", header=Niciunul, index=Niciunul) Vă sfătuiesc să salvați un alt CSV cu un eșantion mic de , milioane de tweet-uri, astfel încât să le puteți testa și pe acestea: tweetsDF sample( ) to csv("train-processed-sample csv", header=Niciunul, index=Niciunul) Acum trebuie să spunem torchtext ceea ce credem că este important în scopul creării setului de date Capitolul • Clasificarea textului Definirea câmpurilor Biblioteca torchtext generează un set de date într-un mod simplu: spui ce vrei și procesează CSV (sau JSON) original Pentru a face acest lucru, definim mai întâi câmpurile Clasa Field are un număr semnificativ de parametri care îi pot fi alocați și, deși probabil nu îi veți folosi pe toți odată, Table oferă informații utile despre ce puteți face cu câmpul Tabelul Tipuri de parametri de câmp Parametru Descriere Valoare implicită secvenţial Dacă câmpul reprezintă date secvenţiale (adică text) Dacă este setat la Fals, nu se aplică nicio tokenizare Adevărat use vocab Dacă se include obiectul Vocab Dacă este setat la Fals, câmpul trebuie să conțină date numerice Adevărat init token Tokenul care va fi adăugat înaintea acestui câmp pentru a indica începutul datelor Nici unul eos token Indicativ de sfârșit de propoziție adăugat la sfârșitul fiecărei secvențe None fix length Dacă este dat un număr întreg, toate înregistrările vor fi aliniate la această lungime Dacă nu există, lungimile secvenței vor fi flexibile dtype Tensor parte tip lanternă lung mai mic Convertește secvența în minuscule False tokenize O funcție care va tokeniza secvența Dacă este setat la spacy, va fi utilizat tokenizerul de șir spaCy Despică pad token Jetonul care va fi folosit ca umplutură pentru unk token Un simbol care va fi folosit pentru a indica cuvinte care nu sunt în Vocabdict pad first Umplutură la începutul secvenței False trun Trunchiază la începutul secvenței (dacă este necesar) Fals cat first text torță După cum am menționat deja, ne interesează doar marcajele și textul tweet-urilor Le definim folosind tipul de date Field: din datele de import torchtext LABEL = date LabelField() TWEET = date Field(tokenize='spacy', lower=true) Definim LABEL ca o subclasă LabelField a Field care setează secvenţial la False (deoarece aceasta este clasa noastră de categorie numerică) TWEET este un obiect Field standard în care am ales să folosim spaCy tokenizer și să convertim tot textul în minuscule, dar în caz contrar folosim valorile implicite așa cum se arată în tabelul anterior Dacă pasul de construire a dicționarului durează foarte mult când rulați acest exemplu, luați în considerare eliminarea parametrului tokenize și rularea din nou Implicit va fi împărțirea pur și simplu a șirului pe spații, ceea ce va accelera semnificativ pasul de tokenizare, deși dicționarul rezultat nu va fi la fel de bun ca cel creat de spaCy După definirea acestor câmpuri, trebuie să creăm o listă care le va lega la o listă de șiruri din CSV: câmpuri = [('scor',None), ('id',None),('data',None),('query',None), ("nume", niciunul), ('Tweet', TWEET),('categorie',Niciuna),('labei', LABEL)] Înarmați cu câmpurile declarate, folosim TabularDataset pentru a aplica această definiție la CSV: twitterDataset = torchtext data TabularDataset( path="training-processed csv", format="CSV", fields=fields, skip header=False) Acest lucru poate dura ceva timp, mai ales cu parserul spaCy În cele din urmă, putem împărți seturile de date în instruire, testare și verificare folosind metoda split(): (antren, testare, valid) = twitterDataset split(split ratio=[ , , ]) (len(tren),len(test),len(valid)) > ( , , ) Capitolul • Clasificarea textului Iată un exemplu extras din setul de date: >vars(train examples[ ]) {'labei': ' ', "Tweet": ["woah", 'iad', 'în', 'capelă', 'fior', 'este' , 'închis', 'Nu', 'Mai mult', "transpirat", 'subsol', 'dans', 'petreceri', În mod surprinzător, un tweet selectat aleatoriu se referă la închiderea unui club din Chapel Hill pe care l-am frecventat Veți putea găsi ceva ciudat când vă scufundați în date? Dicţionar building În mod tradițional, în această etapă, am crea o codificare fierbinte a fiecărui cuvânt care este prezent în setul de date - un proces destul de obositor Din fericire, torchtext face acest lucru pentru noi și, de asemenea, ne permite să trecem un parametru max size pentru a limita dicționarul la cele mai comune cuvinte Acest lucru se face de obicei pentru a preveni crearea unui model uriaș care necesită multă memorie La urma urmei, nu vrem să ne supraîncărcăm GPU-urile Să limităm vocabularul din setul de date de antrenament la maximum de cuvinte vocab size = TWEET build vocab(train, max size = vocab size) Apoi putem cere obiectului instanță al clasei de vocab să ne dea câteva informații despre setul nostru de date În primul rând, punem întrebarea standard: "Cât de mare este vocabularul nostru?" text torță len(TWEET vocab) > Oprește-te, oprește-te, ce! Da, am specificat de cuvinte, dar torchtext va adăuga în mod implicit încă două indicative speciale pentru cuvintele necunoscute (de exemplu, cele care au fost eliminate ca urmare a limitei de de cuvinte stabilite cu max size) și , un simbol de indentare , care va fi folosit pentru a potrivi tot textul la aproximativ aceeași dimensiune pentru a permite o loturi eficiente pe GPU (rețineți că viteza acestuia depinde de rularea în loturi obișnuite) De asemenea, puteți specifica caracterele eos token sau init token atunci când declarați un câmp, dar acestea nu sunt activate implicit Acum să ne uităm la cele mai comune cuvinte din dicționar: >TWEET vocab freqs most common( ) [('!', )j (' ', ), ('G, ), (' ), ("la", ), ("the", ), ), ("a", ), ("i", ), ('apsg, )] Aproape de ceea ce v-ați aștepta, deoarece nu eliminăm cuvintele oprite cu spaCy tokenizer (Deoarece sunt doar de caractere, dacă facem asta, modelul nostru ar putea pierde prea multe informații ) Aproape am terminat cu seturile de date Acum, pentru a crea un încărcător de date pentru a alimenta bucla de antrenament, torchtext oferă o metodă Bucketlterator care va produce ceea ce numește un lot - este un pic ca încărcătorul de date pe care l-am folosit în imagini (Veți vedea în curând că bucla de învățare trebuie să fie actualizată pentru a face față unor ciudățenii din interfața Batch ) train iterator, valid iterator, test iterator = date Bucketlterator splits((train, valid, test), batch size = , Capitolul • Clasificarea textului dispozitiv = dispozitiv) Deci, iată codul complet pentru compilarea setului nostru de date: din datele de import torchtext dispozitiv = "cuda" LABEL = date LabelField() TWEET = date Field(tokenize='spacy', lower=true) câmpuri = [('scor',None), ('id',None),('data',None),('query',None), ("nume", niciunul), ('Tweet', TWEET),('categorie',Niciuna),('labei', LABEL)] twitterDataset = torchtext data TabularDataset( path="training-processed csv", format="CSV", fields=fields, skip header=False) (antren, testare, valid) = twitterDataset split(split ratio=[ , , ]) vocab size = TWEET build vocab(train, max size = vocab size) train iterator, valid iterator, test iterator = data Bucket!terator splits( (antrenează, valid, testează), batch size = , dispozitiv = dispozitiv) Cu procesarea datelor sortată, putem trece la definirea modelului nostru Crearea modelului Pentru a construi un model simplu de clasificare a tweet-urilor în PyTorch, folosim modulele Embedding și LSTM (acoperite în prima jumătate a acestui capitol): import torch nn ca nn clasa OurFirstLSTM(nn Module): def init (seif, hidden size, embedding dim, vocab size): super(OurFirstLSTM, seif) init () seif embedding = nn Embedding(vocab size, embedding dim) self encoder = nn LSTM(input size=embedding dim, hidden size=hidden size, num layers=l) text torță seif predictor = nn Linear(hidden size, ) def forward(self, seq): output, (hidden, ) = seif encoder(self embedding(seq)) preds = seif predictor(hidden squeeze( )) întoarce previziunile model = OurFirstLSTM( , ) model to (dispozitiv) Tot ceea ce facem în acest model este să creăm trei straturi În primul rând, cuvintele din tweet-urile noastre sunt plasate într-un strat de încorporare, pe care îl setăm ca o încorporare vectorială de de dimensiuni Acesta este apoi trecut la LSTM cu de caracteristici ascunse (din nou, comprimăm intrarea de de dimensiuni, la fel cum am făcut cu imaginile) În cele din urmă, ieșirea LSTM (starea finală ascunsă după procesarea tweet-ului primit) trece printr-un strat standard complet conectat cu trei ieșiri pentru a se potrivi cu cele trei clase posibile ale noastre (negativ, pozitiv sau neutru) În continuare trecem la ciclul de învățare! Actualizarea ciclului de învățare Datorită unor particularități ale textului torță, este necesar să scrieți o buclă de învățare ușor modificată Mai întâi creăm un optimizator (cum folosim de obicei Adam) și o funcție de pierdere Deoarece avem trei clase potențiale pentru fiecare tweet, folosim CrossEntropy Loss() ca funcție de pierdere Cu toate acestea, se dovedește că există doar două clase în setul de date; dacă am presupune că ar fi doar două, atunci am putea modifica de fapt rezultatul modelului pentru a obține un singur număr de la la și apoi să folosim pierderea de entropie încrucișată binară (ALL) Este posibil să combinați stratul sigmoid, care se potrivește cu valoarea de ieșire între și plus stratul ALL, într-o singură funcție de pierdere PyTorch, BCEWithLogitsLoss() Spun asta pentru că dacă scrieți un clasificator care trebuie să fie întotdeauna într-o stare sau alta, aceasta este mai bună decât pierderea standard de entropie încrucișată pe care o vom folosi optimizator = optim Adam(model parameters(), lr= e- ) criteriu = nn CrossEntropyLoss() def train(epoci, model, optimizator, criteriu, train iterator, valid iterator): Capitolul • Clasificarea textului pentru epoca din interval (l, epoci + ): training loss = , pierdere validă = , model train() pentru batch idx, lot în enumerate(train iterator): opt zero grad() prezice = model(batch tweet) pierdere = criteriu(predict,batch labei) pierdere înapoi() optimizator step() training loss += loss data item() * batch tweet size( ) training loss /= len(train iterator) model eval() pentru batch idx, batch în enumerate(valid iterator): prezice = model(batch tweet) pierdere = criteriu(predict,batch labei) pierdere validă += pierdere date item() * x size( ) valid loss /= len(valid iterator) print('Epoca: {}, Pierdere la antrenament: {: f}, Pierdere de validare: {: f}' format(epoch, training loss, valid loss)) Principalul lucru de știut despre această nouă buclă de învățare este că trebuie să facem referire la batch tweet și batch labei pentru a obține câmpurile specifice care ne interesează; nu cad din enumerator la fel ca în torchvision Odată ce ne-am antrenat modelul cu această caracteristică, îl putem folosi pentru a clasifica unele tweet-uri pentru a efectua o analiză simplă a sentimentelor sau o analiză a sentimentelor Clasificare Tweet Un alt dezavantaj al torchtext este că este greu să-l faci să prezică ceva În acest caz, puteți emula conducta de procesare care rulează intern și puteți face predicția dorită asupra ieșirii acelei conducte, așa cum se arată în această mică funcție: def classify tweet(tweet): categorii = { : "Negativ", : "Pozitiv"} procesat = TWEET process([TWEET preprocess(tweet)]) returnează categorii[model(processed) argmax() item()] text torță Trebuie să apelăm preprocess() care face tokenizarea pe baza spaCy Apoi putem apela process() pe token-urile din tensor pe baza dicționarului deja construit Singurul lucru de remarcat este că torchtext așteaptă un lot de șiruri de caractere, așa că trebuie să îl convertiți într-o listă de liste înainte de a-l trece la funcția de procesare Apoi îl introducem în model Acest lucru va crea un tensor care arată astfel: tensor([[ , , - , ]] Elementul tensor cu cea mai mare valoare corespunde clasei de model selectate, așa că folosim argmax() pentru a obține indexul său, iar apoi item() pentru a converti acel tensor zero-dimensional într-un întreg Python, pe care îl indexăm în dicționarul nostru de categorii Cu modelul nostru instruit, să vedem cum să facem unele dintre celelalte trucuri despre care știți deja în capitolele - Mărirea datelor S-ar putea să vă întrebați exact cum se poate face mărirea datelor text La urma urmei, nu poți întoarce textul pe orizontală ca pe o imagine! Dar puteți folosi și alte tehnici de manipulare a textului care vor oferi modelului puțin mai multe informații pentru antrenament În primul rând, puteți înlocui cuvintele dintr-o propoziție cu sinonime, de exemplu, expresia: Această pisică stătea pe saltea poate fi Această pisică stătea pe saltea În afară de părerea pisicii că așternutul este mult mai moale decât covorul, sensul propoziției nu s-a schimbat Dar covorașul și așternutul vor fi potrivite în dicționar la indici diferiți, astfel încât modelul va învăța că cele două propoziții sunt asociate cu aceeași etichetă și că Capitolul • Clasificarea textului există o legătură între aceste două cuvinte, deoarece totul în propoziții este același La începutul lui , EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks a propus alte trei strategii de augmentare: inserare aleatorie, permutare aleatoare și ștergere aleatorie Să ne uităm la fiecare dintre ele inserare aleatorie În cazul metodei de inserare aleatorie, programul "se uită" la propoziție și apoi inserează aleatoriu sinonimele cuvintelor non-stop existente în propoziție de n ori Deși aveți o modalitate de a obține un sinonim de cuvânt și o modalitate de a exclude cuvintele oprite (cuvinte uzuale precum și, it, articol etc ) afișate, dar neimplementate în această funcție prin get syno nyms() și get stopwords (), implementarea ar arata asa: def random insertion(propoziție, n): cuvinte = remove stopwords(propoziție) pentru în intervalul (n): sinonim nou = obține sinonime(aleatorie aleatorie(cuvinte)) sentence insert(randrange(len(sentence)+l), new synonym) return sentence În practică, un exemplu în care este inserat cuvântul pisică ar putea arăta astfel: Pisica s-a așezat pe saltea Covorașul pisicii stătea pe covorașul felin Traducere: Această pisică stătea pe covor Acest covoraș pentru pisici s-a așezat pe acest covoraș pentru pisici A se vedea EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks, Jason W Wei și Kai Zou ( ) (https://arxiv org/abs/ ) Mărirea datelor Ștergerea accidentală După cum sugerează și numele, ștergerea aleatorie elimină cuvintele dintr-o propoziție Având în vedere un parametru de probabilitate p, acesta va trece prin propoziție și, pe baza acestei probabilități aleatorii, va decide dacă șterge sau nu cuvântul: def ștergere aleatorie(cuvinte, p= , ): dacă len(cuvinte) == : cuvinte de întoarcere resting = list(filter(lambda x: random uniform( , ) > p,words)) dacă len(remaining) == : returnează [aleatorie aleatorie(cuvinte)] altfel întoarcere rămasă Implementarea se ocupă de cazuri marginale - dacă există un singur cuvânt, metoda îl returnează; iar dacă ajungem să eliminăm toate cuvintele din propoziție, metoda va alege un cuvânt aleatoriu din setul original permutare aleatorie Augmentarea aleatorie a permutării ia o propoziție și apoi schimbă cuvintele din ea de n ori, fiecare iterație lucrând la propoziția modificată anterior Implementarea arată astfel: def random swap(propoziție, n= ): lungime = interval(len(propoziție)) pentru în intervalul (n): idxl, idx = eșantion aleatoriu (lungime, ) propoziție[idxl], propoziție[idx ] = propoziție[idx ], propoziție[idxl] retur propoziție Alegem două numere aleatorii în funcție de lungimea propoziției și apoi continuăm să schimbăm până când obținem n Metodele prezentate în EDA îmbunătățesc acuratețea cu aproximativ % în medie atunci când se utilizează un număr mic de exemple etichetate (aproximativ ) Cu toate acestea, autorul lucrării consideră că dacă setul de date conține mai mult de de exemple, atunci îmbunătățirea acurateței poate scădea la , % sau mai puțin, deoarece modelul obține o generalizare mai bună din mai multe date disponibile, în comparație cu îmbunătățirile pe care EDA poate oferi Capitolul • Clasificarea textului Traducere inversă O altă abordare populară a creșterii setului de date este traducerea înapoi Aceasta implică traducerea unei propoziții din limba țintă într-una sau mai multe alte limbi și apoi traducerea înapoi în limba sursă Putem folosi biblioteca googletrans Python pentru asta Instalați-l cu pip, deoarece nu este disponibil în conda la momentul scrierii acestui articol: pip instalează googletrans Acum putem traduce propoziția noastră din engleză în franceză și apoi înapoi în engleză: import googletrans import googletrans translator translator = Translator() propoziții = ['Pisica sa așezat pe saltea'] translation fr = translator translate(sentences, dest='fr') fr text = [t text for t in translations fr] translation en = translator translate(fr text, dest='en') en text = [t text for t in translation en] print(en text) >> ['Pisica s-a așezat pe covor'] Așadar, obținem o propoziție augmentată tradusă din engleză în franceză și invers, dar hai să facem un pas mai departe și să alegem o limbă la întâmplare: import aleatoriu available langs = list(googletrans LANGUAGES keys()) tr lang = random choice(available langs) print(f"Se traduce în {googletrans LANGUAGES[tr lang]}") traduceri = translator translate(sentences, dest=tr lang) t text = [t text pentru t în traduceri] print(t text) translations en random = translator translate(t text, src=tr lang, dest='en') en text = [t text for t in translations en random] print(en text) Mărirea datelor În acest caz, folosim aleatoriu alegerea de a obține o limbă aleatorie, de a traduce propoziția în acea limbă și apoi de a traduce înapoi De asemenea, transmitem limba parametrului src pentru a ajuta Google Translate să determine limba Încearcă-l și vezi cum îți amintește de vechiul joc Broken Phone Merită să fii conștient de câteva limitări În primul rând, puteți traduce doar până la de caractere odată, deși acest lucru nu ar trebui să fie o problemă prea mare dacă traduceți doar propoziții În al doilea rând, dacă urmează să îl utilizați pe un set de date mare, trebuie să efectuați creșterea datelor pe instanța cloud, nu pe computer, deoarece dacă Google vă interzice IP-ul, atunci nu veți putea folosi Google Translate în mod normal! Asigurați-vă că trimiteți mai multe pachete și nu întregul set de date simultan Acest lucru ar trebui, de asemenea, să permită repornirea pachetelor de traducere dacă apare o eroare pe serverul Google Translate Augmentation and torchtext Poate ați observat că până acum, când vorbesc despre augmentare, nu am menționat niciodată textul torță Din păcate, există motive pentru asta Spre deosebire de torchvision sau torchau dio, torchtext nu oferă o conductă de conversie, ceea ce este puțin trist Oferă o modalitate de a face pre- și post-procesare, dar care funcționează doar la nivel de simbol (cuvânt), care poate fi suficient pentru înlocuirea sinonimelor, dar nu oferă suficient control pentru operațiuni precum traducerea inversă Și dacă încercați să interceptați conducte pentru augmentare, este mai bine să o faceți în conducta de pre-procesare și nu în conducta de post-procesare, deoarece tot ce veți vedea în el este un tensor de numere întregi pe care trebuie să le potriviți cu cuvinte prin intermediul regulile dicționarului Prin urmare, vă sugerez să nu pierdeți nici măcar timpul încercând să utilizați textul torță pentru creșterea datelor Mai bine faceți-o în afara PyTorch, folosind tehnici precum traducerea inversă pentru a genera date noi și a le introduce în model ca și cum ar fi date reale Asta e tot despre augmentare, dar înainte de a încheia capitolul, să ne uităm la elefant, pe care nu l-am observat Capitolul • Clasificarea textului Transferați învățarea? S-ar putea să vă întrebați de ce nu am vorbit despre învățarea prin transfer La urma urmei, aceasta este tehnica cheie care ne permite să creăm modele precise bazate pe imagini, așa că de ce nu o putem aplica aici? Ei bine, se dovedește că obținerea învățării prin transfer pentru a funcționa pe rețelele LSTM este puțin mai dificilă Dar nu imposibil Vom reveni la acest subiect în Capitolul , unde veți învăța cum să configurați învățarea prin transfer cu rețelele LSTM și cu rețelele Transformer Concluzie În acest capitol, am acoperit o conductă de procesare a textului care acoperă codificarea și încorporarea, o rețea neuronală LSTM simplă pentru a realiza clasificarea și câteva strategii de creștere a datelor de text Aveți un domeniu larg pentru experimente Am decis să pun cu minuscule fiecare tweet în timpul pasului de tokenizare În NLP, aceasta este o abordare comună, dar omite informații importante în tweet Expresia "De ce nu funcționează?" trezește mai multă emoție în noi decât expresia "De ce nu funcționează?", dar am renunțat la această distincție înainte ca tweet-urile să intre în model Deci, încercați cu siguranță să rulați modelul care distinge majuscule și minuscule din stânga în text tokenizat De asemenea, încercați să eliminați cuvintele stop din textul introdus pentru a vedea dacă precizia se îmbunătățește Metodele tradiționale NLP tind să le elimine, dar am descoperit că metodele de învățare profundă pot funcționa mai bine dacă sunt lăsate cuvinte stop în intrare (ceea ce am făcut în acest capitol) Acest lucru se datorează faptului că oferă modelului mai mult context pentru învățare, în timp ce propozițiile scurtate la cuvinte importante pot lipsi de nuanță Puteți modifica dimensiunea vectorului de imbricare Vectorii mai mari înseamnă că imbricatul poate capta mai multe informații despre cuvântul pe care îl modelează, în detrimentul utilizării mai multor memorie Încercați să treceți de la imbricarea de la de dimensiuni și vedeți cum afectează timpul de antrenament și precizia În cele din urmă, vă puteți juca și cu LSTM Am folosit o abordare simplă, dar este posibil să creștem num layers pentru a crea LSTM-uri stivuite, Concluzia creșteți sau micșorați numărul de caracteristici ascunse din strat sau setați bidirectional=true pentru a crea un biLSTM Înlocuirea întregului LSTM cu un strat GRU ar fi, de asemenea, o experiență interesantă - rețeaua învață mai repede? Sau mai precis? Experimentează și vezi ce se întâmplă! Între timp, trecem din lumea textelor în lumea sunetelor cu ajutorul torchaudio Surse suplimentare ■ Long Short-term Memory, S Hochreiter și J Schmidhuber ( ), https://o rei I ly/WKcxO ■ "Învățarea reprezentărilor de expresii folosind codificatorul-decodor RNN pentru traducerea automată statistică", Kyunghyun Cho și colab ( ), https://arxiv org/abs/ ■ "Modele bidirecționale LSTM-CRF pentru etichetarea secvenței", Zhiheng Huang și colab ( ), https://arxiv org/abs/ ■ Atenția este tot ce aveți nevoie, Ashish Vaswani și colab ( ), https://arxiv org/abs/ CAPITOLUL Călătorie în lumea sunetelor În fiecare zi întâlnim cele mai bune exemple de învățare profundă Siri, sau Google Now, sau Alexa de la Amazon - se bazează pe rețele neuronale În acest capitol, vom prezenta biblioteca PyTorch torchaudio Veți învăța cum să îl utilizați atunci când construiți o conductă pentru a clasifica datele audio folosind un model convoluțional Apoi vă voi sugera o abordare diferită care vă permite să utilizați unele dintre trucurile pe care le-ați învățat citind despre lucrul cu imagini și să obțineți o fidelitate bună pe setul de date audio ESC- Dar mai întâi, să înțelegem ce este sunetul Cum este reprezentat ca date și ce tip de rețea neuronală ar trebui utilizat pentru a ne face o idee despre datele noastre? Sunet Sunetul provine din vibrații Toate sunetele pe care le auzim sunt combinații de presiune ridicată și joasă, pe care adesea le considerăm unde, așa cum se arată în Fig În această figură, o undă deasupra originii este presiune înaltă, iar o undă sub origine este presiune joasă Pe fig Figura prezintă o formă de undă mai complexă pentru cântecul complet În audio digital, eșantionăm această formă de undă de mai multe ori pe secundă, de obicei pentru calitatea sunetului CD și stocăm valorile de amplitudine ale formei de undă la fiecare punct de eșantionare La momentul t, avem o valoare stocată, spre deosebire de o imagine, care necesită două valori, x și y, pentru stocare (pentru o imagine în nuanțe de Sunetul gri) Dacă folosim filtre convoluționale în rețeaua noastră neuronală, avem nevoie de un filtru D, nu de filtrele B pe care le-am folosit pentru imagini Acum că știți puțin mai multe despre sunet, să ne uităm la un exemplu de set de date pentru a vă face mai ușor să vă familiarizați cu el Orez undă sinusoidală SRL IM S Timp Orez Forma de undă cântec Capitolul • Călătorie în lumea sunetelor Setul de date ESC- Setul de date Clasificarea zgomotului de mediu (ESC) este un set de înregistrări de teren, fiecare cu o durată de secunde și alocate uneia dintre cele de clase (de exemplu, lătrat de câine, sforăit, bătaie la ușă) Vom folosi acest set mai târziu pentru a experimenta două moduri de a clasifica fișierele audio, precum și pentru a explora utilizarea torchaudio pentru a ușura încărcarea și lucrul cu ele Obținerea unui set de date Setul de date ESC- este un set de fișiere WAV Îl puteți descărca prin clonarea depozitului Git: git clone https://github com/karoldvl/ESC- Sau puteți descărca întregul depozit folosind pur și simplu comanda curl: сuri https://github com/karoldvl/ESC- /archive/master zip Toate fișierele WAV sunt stocate în directorul w/dmo cu următoarele nume de fișiere: l- -A- wav Ultimul număr din numele fișierului este important pentru noi, deoarece ne spune la ce clasă a fost atribuit acest fișier de sunet Celelalte părți ale numelui fișierului nu sunt importante pentru noi, dar sunt în mare parte legate de setul de date Freesound din care au fost preluate datele ESC- (cu o excepție la care voi ajunge în curând) Dacă doriți să aflați mai multe, consultați documentul README din depozitul ESC- Deci, acum că am încărcat setul de date, să aruncăm o privire la sunetele pe care le conține Setul de date ESC- Redarea audio în Jupyter Dacă doriți să ascultați audio pe ESC- , în loc să încărcați fișierul într-un player muzical standard, cum ar fi iTunes, puteți utiliza playerul audio încorporat al Jupyter, IPython display Audio: import IPython display ca afișaj display Audio('ESC- /audio/l- -A- wav') Funcția va citi fișierele noastre WAV și MP De asemenea, puteți genera tensori, îi puteți converti în matrice NumPy și îi puteți reda direct Redați unele dintre fișierele din directorul ESC- pentru a auzi sunetele disponibile Odată ce faci asta, vom merge mai departe Explorarea datelor ESC- Când lucrați cu un nou set de date, este întotdeauna o idee bună să înțelegeți forma acestuia înainte de a vă scufunda în construirea modelului De exemplu, atunci când rezolvați probleme de clasificare, trebuie să aflați dacă setul de date conține într-adevăr exemple din toate clasele posibile și, în mod ideal, doriți ca toate clasele să fie prezente în număr egal Să vedem cum funcționează ESC- Știm că ultimul set de numere din fiecare nume de fișier descrie clasa căreia îi aparține, așa că trebuie să listăm fișierele și să numărăm prezența fiecărei clase: import glob din colecții import Counter esc list = [f split()[- ] înlocuiește(" wav", "") pentru f in glob glob("ESC- /audio/* wav")] Counter(esc list) Mai întâi construim o listă de nume de fișiere ESC- Deoarece ne pasă doar de numărul clasei de la sfârșitul numelui fișierului, "tăiem" extensia wav și separăm numele fișierului evidențiind separatorul In sfarsit noi Capitolul • Călătorie în lumea sunetelor luați ultimul element al acestui șir împărțit Dacă verificați esc list, veți obține un lot de șiruri de caractere care variază de la la Am putea scrie mai mult cod care compilează un dict și numără toate cazurile, dar sunt prea leneș, așa că folosesc funcția de ajutor Counter din Python, care nu toate acestea pentru noi Iată ce se întâmplă: Contor({' ' : , " ": , " ": " ": , " ": " ": , " ": " ": ' : , " ": , " ": - }) Acesta este cazul rar în care setul de date este perfect echilibrat Să sărbătorim acest lucru și să instalăm încă câteva biblioteci care vor fi necesare în viitorul apropiat Dacă setul de date conține o cantitate dezechilibrată de date, atunci puteți doar să duplicați aleatoriu exemple de clase mai mici până când le scalați la numărul de alte clase În timp ce acesta pare un cont fals, este surprinzător de eficient (și ieftin!) în practică SoX și LibROSA Majoritatea procesării audio pe care torchaudio o face se bazează pe alte două tipuri de software: SoX și LibROSA LibROSA este o bibliotecă de analiză audio Python care include generarea de spectrograme cretă (veți afla ce este aceasta într-un moment), detectarea ritmului și chiar producția de muzică SoX este un program cu care este posibil să fiți deja familiarizat dacă ați folosit vreodată Linux De fapt, SoX este chiar mai vechi decât Linux însuși; a apărut pentru prima dată în iulie , în timp ce Linux a debutat în septembrie Îmi amintesc că l-am folosit în pentru Explorarea datelor ESC- conversia fișierelor WAV în format MP pe prima sa cutie Linux Dar acest program este încă util! Dacă instalați torchaudio prin conda, puteți sări la secțiunea următoare Dacă utilizați pip, probabil că va trebui să instalați SoX în sine Pentru un sistem bazat pe Red Hat, introduceți următoarele: yum install sox Pentru un sistem bazat pe Debian, introduceți următoarele: apt intal sox După instalarea SoX, puteți merge direct la torchaudio torchaudio Puteți instala torchaudio folosind conda sau pіp: conda install -c derickl torchaudio pip install torchaudio Spre deosebire de torchvision, torchaudio este similar cu torchtext prin faptul că, de asemenea, nu este iubit la fel de mult, are puțin suport și oferă puțină sau deloc documentație Sper că acest lucru se va schimba în viitorul apropiat, pe măsură ce PyTorch devine mai popular și sunt create conducte mai bune de procesare a textului și audio Cu toate acestea, torchaudio va fi suficient pentru a ne rezolva problemele; trebuie doar să scriem niște încărcătoare de date personalizate (pe care nu trebuia să le facem pentru a procesa date audio sau text) În orice caz, nucleul torchaudio este în load() și save() În acest capitol, vom acoperi doar load(), dar va trebui să utilizați save() dacă creați un nou sunet din intrarea dvs (de exemplu, un model text-to-speech) load() preia fișierul specificat în calea fișierului și returnează reprezentarea tensorului fișierului audio și rata de eșantionare a acelui fișier audio ca o variabilă separată Acum avem fonduri Toate funcționalitățile SoX (http://sox sourceforge net/) sunt în afara domeniului de aplicare al acestei cărți și nu sunt necesare pentru scopurile noastre în restul acestui capitol Capitolul • Călătorie în lumea sunetelor pentru a încărca unul dintre fișierele WAV din setul de date ESC- și a-l converti într-un tensor Spre deosebire de lucrul cu text și imagini, trebuie să scriem puțin mai mult cod înainte de a începe să construim și să antrenăm modelul Trebuie să ne scriem propriul set de date Crearea setului de date ESC- O Am vorbit despre seturile de date în capitolul , dar torchvision și torchtext au făcut toată munca grea pentru noi, așa că nu a trebuit să ne gândim la detalii După cum vă amintiți, două metode din clasa getitem și In en trebuie implementate în setul de date utilizator pentru a încărca Procesorul de date ar putea obține un lot de tensori și etichetele acestora, precum și numărul total de tensori din setul de date Avem, de asemenea, o init method pentru setările de cale pentru fișierele care vor fi utilizate în mod repetat Iată prima noastră trecere în setul de date ESC- : clasa ESC (set de date): def init (seif,cale): #Get directory list from path files = Path(path) glob('* wav') ttlterate prin listare și creați o listă de tuple (nume fișier, etichetă) self items = [(f,int(f name split()[- ] replace(" wav",""))) pentru f în fișiere] self length = len(self items) def getitem (seif, index): filename, labei = seif items[index] audio tensor, sample rate = torchaudio load(filename) return audio tensor, labei def len (seif): returnează lungimea de sine Cea mai mare parte a muncii dintr-o clasă are loc atunci când este creată o nouă instanță a acesteia init method preia un parametru cale, găsește toate fișierele WAV din interior trei dintre aceste căi și apoi creează tupluri (nume fișier, etichetă) folosind același separator de linii despre care am scris în acest capitol pentru a obține marcarea acestei mostre audio Când RuTorch solicită un element de la to Explorarea datelor ESC- bor de date, îl indexăm în lista de articole, folosim torchaudio load pentru a forța torchaudio să încarce fișierul audio, îl transformă într-un tensor și apoi returnează atât tensorul, cât și eticheta Acest lucru este suficient pentru a începe Pentru o verificare a logicii, să creăm un obiect ESC și să extragem primul element: test esc = ESC (PATH TO ESC ) tensor, labei = list(test esc )[ ] tensor tensor([- , , - , , - , , , , , , , , ]) tensor forma torță Dimensiune([ ]) labei ' ' Putem crea un încărcător de date folosind structuri standard PyTorch: example loader = torch utils data DataLoader(test esc , batch size = , shuffle = True) Dar înainte de a face asta, să revenim la datele noastre După cum vă amintiți, ar trebui să creăm întotdeauna un set de date de instruire, validare și testare Momentan avem un singur director cu toate datele, care nu este potrivit Împărțirea datelor într-un raport de / / în date de instruire, validare și testare este în conformitate cu obiectivele noastre Deci, putem face acest lucru prin luarea unui eșantion aleatoriu din întregul set de date (asigurându-ne că nu există eșantionare de înlocuire și asigurându-ne că seturile de date nou create sunt echilibrate), dar din nou, setul de date ESC- ne economisește multă muncă Compilatorii setului de date au împărțit datele în cinci pliuri egale echilibrate, notate cu prima cifră din numele fișierului Vom avea pliuri , , - set de date de antrenament, - set de date de validare și - set de date de testare Dar dacă nu vrei să fii plictisitor și consecvent, nu-ți fie teamă să le amesteci! Mutați fiecare fold în directoarele de testare, instruire și validare" mv * /tren mv * /tren Capitolul • Călătorie în lumea sunetelor mv * /tren mv * /valid mv * /test Acum putem crea seturi de date și încărcătoare separate: din calea de import pathlib bs= PATH TO ESC = Path cwdO / 'esc ' cale='test md' Test train esc = ESC (PATH TO ESC / "tren") valid esc = ESC (PATH TO ESC / "valid") test esc = ESC (PATH TO ESC / "test" train loader = torch utils data DataLoader(train esc , batch size = bs, shuffle = True) valid loader = torch utils data DataLoader(valid esc , batch size = bs, shuffle = True) test loader = torch utils data DataLoader(test esc , batch size = bs, shuffle = True) Toate datele sunt gata, așa că ne putem uita la modelul de clasificare Model CNN pentru setul de date ESC- Pentru prima noastră încercare de clasificare a sunetelor, creăm un model care se bazează în mare parte pe un articol numit "Rețele convoluționale foarte adânci pentru forme de undă brute " D-c noeB folosim straturi lD deoarece în cazul nostru avem o dimensiune mai puțin: classAudioNet(nn Module): def init (seif): super(AudioNet, seif) init () seif convl = nn Convld(l, , , ) seif bnl = nn BatchNormld( ) self pooll = nn MaxPoolld( ) cm "CNN foarte profund pentru forme de undă brute", Wei Dai și colab ( ) (https://arxiv org/pdf/ pdf) Model CNN pentru setul de date ESC- self conv = nn Convld( , , ) self bn = nn BatchNormld( ) self pool = nn MaxPoolld( ) self conv = nn Convld( , , ) self bn = nn BatchNormld( ) self pool = nn MaxPoolld( ) self conv = nn Convld( , , ) self bn = nn BatchNormld( ) self pool = nn MaxPoolld( ) seif avgPool = nn AvgPoolld( ) seif fel = nn Linear( , ) def înainte(self, x): x = seif convl(x) x = F relu(seif bnl(x)) x = seif pooll(x) x = seif conv (x) x = F relu(seif bn (x)) x = seif pool (x) x = seif conv (x) x = F relu(seif bn (x)) x = seif pool (x) x = seif conv (x) x = F relu(seif bn (x)) x = seif pool (x) x = seif avgPool(x) x = x permutare( , , ) x = sine fcl(x) returnează F log softmax(x, dim = ) De asemenea, aveți nevoie de un optimizator și de o funcție de pierdere Utilizăm Adam ca optimizator ca și înainte, dar ce funcție de pierdere credeți că ar trebui folosită? (Dacă ați răspuns CrossEn tropyLoss, atunci aveți dreptul la o medalie!) audio net = AudioNet() audio net to(dispozitiv) Cu modelul nostru creat, stocăm greutățile și folosim funcția find lr() din capitolul : audio net save("audionet pth") import lanternă optim ca optim optimizator = optim Adam(audionet parameters(), lr= ) jurnal, pierderi = find lr(audio net, nn CrossEntropyLoss(), optimizator) plt plot(jurnal,pierdere) Capitolul • Călătorie în lumea sunetelor Conform graficului din Fig determinăm că rata de învățare corespunzătoare este de aproximativ e- (în funcție de locul în care coborârea pare cea mai abruptă) Setăm această valoare ca rata de învățare și reîncărcăm greutățile inițiale ale modelului nostru: g = e- model load("audionet pth") import lanternă optim ca optim optimizator = optim Adam(audionet parameters(), lr=lr) Antrenăm modelul pentru de epoci: train(audio net, optimizator, torch nn CrossEntropyLoss(), train data loader, valid data loader, epochs= ) După antrenament, veți descoperi că modelul produce aproximativ - % acuratețe pe setul nostru de date Acesta este mai bun decât cei % la care ne-am putea aștepta dacă am alege aleatoriu una dintre cele de clase Dar poate că rezultatul poate fi îmbunătățit Să ne uităm la un alt mod de a vizualiza datele noastre audio Orez Graficul ratei de învățare AudioNe Model CNN pentru setul de date ESC- Frecvența este universul meu Dacă citiți despre ESC- pe pagina GitHub, veți vedea o listă cu liderii arhitecturii de rețea și factorii lor de acuratețe Veți observa că, în comparație cu ei, nu suntem atât de roz Ar fi posibil să extindeți modelul creat pentru a-l aprofunda și, prin urmare, pentru a îmbunătăți puțin precizia, dar pentru a crește cu adevărat performanța, trebuie să schimbați domeniile Când procesați date audio, puteți lucra cu forme de undă pure, ceea ce am făcut noi; dar de cele mai multe ori va trebui să lucrați în domeniul de frecvență Această reprezentare diferită transformă forma de undă brută într-o reprezentare de date care arată toate frecvențele sunetului la un moment dat Poate că aceasta este o reprezentare mai bogată în informații a rețelei neuronale, deoarece poate funcționa direct cu aceste frecvențe și nu trebuie să ne dăm seama cum să convertim semnalul brut într-o formă pe care modelul o poate folosi Să vedem cum să generăm spectrograme de frecvență cu LibROSA Spectrograme cu cretă În mod tradițional, pentru a intra în domeniul de frecvență, semnalului audio trebuie aplicată o transformată Fourier Vom merge puțin mai departe prin crearea de spectrograme la scară de cretă Scara de cretă definește o scară de pasi care sunt echidistante unele de altele, unde mel = Hz Această scară este utilizată în mod obișnuit în procesarea audio, în special pentru recunoașterea și clasificarea vorbirii Pentru a crea o spectrogramă de cretă folosind LibROSA, vă puteți descurca cu două linii de cod: sample data, sr = librosa oab("E C- /ѣgain/ - -A- yаѵ"l sr=None) spectrogram = librosa feature melspectrogram(sample dataJ sr=sr) Rezultatul este o matrice NumPy care conține datele spectrogramei Dacă afișăm această spectrogramă așa cum se arată în Fig , vom vedea frecvențele din sunetul nostru: librosa display specshow(spectrogramJ sr=sr, x axis='time', y axis='mei') Capitolul • Călătorie în lumea sunetelor O Oft Jft Timp Orez Spectrograma cu cretă Nu există prea multe informații în imagine Se poate îmbunătăți! Dacă convertiți spectrograma la o scară logaritmică, atunci structurile sunetului vor fi mai bune deoarece scara va reprezenta o gamă mai largă de valori În procesarea datelor audio, această metodă este destul de comună, iar LibROSA are cod special pentru aceasta: log spectrogram = librosa power to db(spectrogramJ ref=np max) Aceasta calculează un factor de scalare de * logl (spectrogramă / ref) ref este implicit , dar aici trecem pr max() astfel încât spectrograma / ref să se încadreze în intervalul [ , ] Pe fig arată noua spectrogramă Acum avem o spectrogramă cretă logaritmică! Dacă apelați log spectrogram forma, veți vedea că acesta este un tensor H, ceea ce este logic deoarece am trasat imaginile folosind un tensor Am putea crea o nouă arhitectură de rețea neuronală și am putea introduce date noi în ea, dar am un truc diabolic în mânecă Am generat literalmente imagini ale datelor spectrogramei De ce să nu lucrezi cu ei? La început, o astfel de decizie poate părea o prostie; la urma urmei, avem datele spectrogramei de bază, care sunt mai precise decât reprezentarea imaginii (dacă vedem că valoarea punctului de date corespunde la și nu la , atunci aceasta înseamnă mai mult pentru noi decât o altă nuanță, cum ar fi Violet) Și dacă am pleca de la zero, așa ar fi Dar! Avem deja rețele pregătite precum ResNet și Inception, care sunt ca Frecvența este universul meu Orez Înregistrați spectrograma cretă știm să recunoaștem perfect structura și alte părți ale imaginilor Putem crea reprezentări de imagine ale sunetului nostru și putem folosi rețeaua pre-antrenată pentru a îmbunătăți considerabil acuratețea cu puțină pregătire, utilizând încă o dată învățarea de transfer grea Pentru setul nostru de date, aceasta ar putea fi o soluție potrivită, deoarece nu avem multe exemple pentru a antrena rețeaua (doar !) Această tehnică poate fi utilizată pe multe seturi de date eterogene Dacă găsiți o modalitate de a vă converti datele într-o reprezentare de imagine la un cost redus, merită să profitați de asta și să utilizați ResNet pentru a evalua de ce este capabilă învățarea prin transfer și pentru a vă face o idee despre ce vă veți confrunta dacă vă hotărăște să adopte o abordare diferită Acum să creăm un nou set de date care va genera aceste imagini la cerere Nou set de date Eliminați clasa inițială a setului de date ESC și creați un nou gram ESC Spectro Deși acest lucru separă o parte din cod de clasa veche, în această versiune, get item method poate obține mult mai mult Generăm o spectrogramă folosind LibROSA și apoi facem o manipulare matplotlib pentru a introduce datele într-o matrice Num Py Aplicăm o matrice conductei noastre de transformare (care folosește doar ToTensor) și o returnăm și eticheta articolului Iată codul pe care îl folosim pentru asta: Capitolul • Călătorie în lumea sunetelor clasa ESC Spectrogram(Dataset): def init (seif,cale): fișiere = Path(path) glob('* wav') seif items = [(f,int(f name split("-")[- ] replace(" wav",""))) pentru f în fișiere] self length = len(self items) seif transforms = torchvision transforms Compose( [torchvision transforms ToTensor()]) def getitem (seif, index): nume de fișier,labei = seif items[index] audio tensor, sample rate = librosa load(filename, sr=None) spectrogram = librosa feature melspectrogram(audio tensor, sr=sample rate) log spectrogram = librosa power to db(spectrogram, ref=np max) librosa display specshow,(log spectrogram sr=sample rate, x axis='time', y axis='mei') plt gcf() canvas draw() audio data = np frombuffer(fig canvas tostring rgb(), dtype=np uint ) audio data = audio data reshape(fig canvas get width height() [::-l] + ( ,)) return (seif transforms(audio data), labei) def len (seif): returnează lungimea de sine Nu vom petrece prea mult timp pe această versiune a setului de date, deoarece are un mare defect, pe care îl voi demonstra cu metoda process time() de la Python: oldESC = ESC ("ESC- /tren/") start time = time process time() oldESC getitem ( ) end time = time process time() old time = end time - start time nouESC = ESC Spectrogram("ESC- /tren/") start time = time process time() nouESC getitem ( ) end time = time process time() ora nouă = ora finală - ora începerea timp vechi = , timp nou = , Noul set de date este de aproape o sută de ori mai lent decât cel original, care tocmai a returnat audio brut! Învățarea devine incredibil de lentă și poate chiar anula orice beneficii ale învățării prin transfer Frecvența este universul meu Putem folosi mai multe metode care ne rezolvă majoritatea problemelor Prima abordare este adăugarea unui cache pentru a stoca spectrograma generată în memorie, astfel încât să nu fie nevoie să o restabilim de fiecare dată când apelăm la metoda getitem Cu pachetul Python f unctools, acest lucru este ușor: import functools clasa ESC Spectrogram(Dataset): săriți codul de pornire @functools lru cache(maxsize= ) def getitem (seif, index): Atâta timp cât există suficientă memorie RAM pentru a stoca întregul conținut al setului de date, acest lucru poate fi suficient Am configurat un cache lung neutilizat (LRU) care va păstra conținutul în memorie cât mai mult timp posibil, indecșii care nu au fost accesați de mult timp fiind primii care vor fi recuperați din cache atunci când memoria este încărcată Cu toate acestea, dacă nu aveți suficientă memorie de stocat, veți avea performanță lentă la fiecare iterație a pachetului, deoarece urmele șterse trebuie restaurate Prefer să precalculez toate diagramele posibile și apoi să creez o nouă clasă de set de date personalizată care încarcă acele imagini de pe disc (De asemenea, puteți adăuga o adnotare cache LRU pentru o accelerare suplimentară ) Nu trebuie să faci nimic elegant pentru a precalcula, este doar o metodă care salvează parcele în același director prin care trec: def precompute spectrograms(cale, dpi= ): fișiere = Path(path) glob('wav') pentru numele fișierului în fișiere: audio tensor, sample rate = librosa load(filename, sr=None) spectrogram = librosa feature melspectrogram(audio tensor, sr=sr) log spectrogram = librosa power to db(spectrogram, ref=np max) librosa display specshow(log spectrogram, sr=sr, x axis='time', y axis='mei') plt gcf() savefig("{}{} {}•png" format(nume fișier părinte, dpi, nume fișier nume),dpi=dpi) Această metodă este mai simplă decât setul nostru de date anterior, deoarece putem folosi metoda savefig a matplotlib pentru a salva diagrama Capitolul • Călătorie în lumea sunetelor direct pe disc în loc să te joci cu NumPy De asemenea, oferim un parametru de intrare suplimentar, dpi, care ne permite să controlăm calitatea ieșirii generate Rulați-l pe toate căile de instruire, testare și validare pe care le-am configurat deja (probabil că va dura câteva ore pentru a parcurge toate imaginile) Tot ce este nevoie acum este un nou set de date care citește aceste imagini Nu putem folosi ImageDataLoader standard discutat în capitolele - deoarece schema de nume de fișiere PNG nu se potrivește cu structura de directoare pe care o folosește Dar, indiferent, putem deschide pur și simplu imaginea cu Biblioteca de imagini Python: din imaginea de import PIL clasa PrecalculatESC (Setul de date): def init (seif,path,dpi= , transforms=None): fișiere = Path(path) glob('{}* wav png' format(dpi)) seif items = [(f,int(f name split()[- ] replace(" wav png",""))) pentru f în fișiere] self length = len(self items) if transforms=None: seif transforms = torchvision transforms Compose([torchvision transforms ToTensor()]) altceva: seif transforms = transforms def getitem (seif, index): nume de fișier,labei = seif items[index] img = Image open(nume fișier) return (seif transforms(img), labei) def len (seif): returnează lungimea de sine Acest cod este mult mai simplu și sperăm că îl puteți vedea chiar și în timpul necesar pentru a obține un element din setul de date: start time = time process time() b getitem ( ) end time = time process time() end time - start time " , Frecvența este universul meu Preluarea unui element din acest set de date durează aproximativ același timp cu abordarea noastră originală cu fișierul audio, așa că nu avem nimic de pierdut dacă trecem la o abordare bazată pe imagini, cu excepția faptului că trebuie să preprocesăm toate imaginile înainte de a crea Bază de date De asemenea, am adăugat o conductă de transformare implicită care convertește imaginea într-un tensor, dar poate fi înlocuită cu o conductă diferită în timpul inițializării Înarmați cu aceste opțiuni, putem începe să transferăm antrenamentul Apariția ResNet După cum vă amintiți din Capitolul , transferul de învățare necesită să luăm un model care a fost deja antrenat pe un anumit set de date (în cazul imaginilor, acesta este probabil ImageNet) și să-l reglam la un anumit domeniu, setul de date ESC , pe care îl convertim în spectrograme Poate vrei să știi dacă un model instruit pe fotografii normale este util Se pare că modelele preantrenate învață multe structuri care se aplică domeniilor care la prima vedere pot părea complet diferite Iată codul din capitolul care inițializează modelul: din modele de import torchvision spec resnet = models ResNet (pretrained=True) pentru param în spec resnet parameters(): param requires grad = Fals spec resnet fc = nn Sequential(nn Linear(spec resnet fc in features, ), nn ReLU(), nn Dropout(), nn Linear( , )) Inițializează un model ResNet preantrenat (și înghețat) și înlocuiește "capul" modelului cu un modul Secvențial neantrenat care se termină cu Linear cu o ieșire de , câte una pentru fiecare dintre clasele din setul de date ESC- De asemenea, trebuie să creați un DataLoader care va accepta spectrograme precalculate Când creăm setul de date ESC- , trebuie să ne normalizăm Capitolul • Călătorie în lumea sunetelor imaginile primite cu standardul ImageNet și deviația medie, deoarece au fost utilizate pentru a antrena arhitectura ResNet- preantrenată Puteți face acest lucru prin introducerea unei noi conducte: esc pre train = PreparedESC (PATH, transforms=torchvision transforms Compune([torchvision transforms ToTensor(), torță viziune transformă Normalizează (medie=[ , , , , , ], std=[ , , , , , ])])) esc pre valid = PreparedESC (PATH, transforms=torchvision transforms Compose([torchvision transforms ToTensor(),), torță viziune transformă Normalizează (medie=[ , , , , , ], std=[ , , , , , ])])) esc train loader = (esc pre train, bs, shuffle=True) esc valid loader = (esc pre valid, bs, shuffle=True) Cu încărcătoarele de date instalate, puteți trece acum la determinarea ratei de învățare și puteți începe să vă pregătiți pentru aceasta Determinarea ratei de învățare Este necesar să se determine rata de învățare pentru utilizarea sa în model Ca și în Capitolul , stocăm parametrii modelului original și folosim funcția find lr() pentru a găsi rata de învățare adecvată Pe fig Figura prezintă o diagramă a pierderii în funcție de rata de învățare spec resnet save("spec resnet pth") loss fn = nn CrossEntropyLoss() optimizator = optim Adam(spec resnet parameters(), lr=lr) logs, losses = find lr(spec resnet, loss fn, optimizer) plt plot(logs) , pierderi) Privind rata de învățare trasată în funcție de pierdere, e- pare să se potrivească bine Deoarece modelul ResNet- este ceva mai profund decât cel anterior, vom lua rata de învățare diferențială [ e- , e- , e- ] cu cea mai mare rată de învățare aplicată clasificatorului nostru (deoarece necesită mai multă pregătire! ), și viteză mai mică pentru canalul de back-bond deja antrenat Din nou, atunci când utilizați Adam ca optimizator, nu neglijați celelalte opțiuni disponibile Frecvența este universul meu • treizeci • V f n o ■ te eO e te te le te-t- Rata de învățare Orez Graficul ratei de învățare SpecResNet Cu toate acestea, înainte de a aplica aceste rate diferențiale, ne antrenăm pentru mai multe epoci care doar actualizează clasificatorul, deoarece am înghețat coloana vertebrală ResNet- la crearea rețelei noastre: optimizator = optim Adam(spec resnet parameters(), lr=[le- ,le- ,le- ]) train(spec resnet, optimizator, nn CrossEntropyLoss(), esc train loader, esc val loader,epochs= ,device="cuda") Acum dezghețăm coloana vertebrală și aplicăm viteze diferențiale: pentru param în spec resnet parameters(): param requires grad = Adevărat optimizator = optim Adam(spec resnet parameters(), lr=[le- ,le- ,le- ]) train(spec resnet, optimizator, nn CrossEntropyLoss(), esc train loader, esc val loader,epochs= ,device="cuda") > Epoca , precizie = , După cum puteți vedea, cu o precizie de validare de aproximativ %, suntem deja cu mult înaintea modelului nostru original AudioNet Oportunitățile de transfer de învățare câștigă din nou! Nu vă fie teamă să antrenați rețeaua pentru mai mult Capitolul • Călătorie în lumea sunetelor numărul de epoci pentru a vedea dacă precizia se îmbunătățește Dacă ne uităm la tabelul de rating ESC- , vedem o precizie egală cu nivelul uman Și asta este doar ResNet- Pentru a împinge scorul și mai sus, puteți încerca ResNet- și poate chiar un ansamblu de arhitecturi diferite Să trecem la creșterea datelor Să ne uităm la câteva moduri de a face acest lucru în ambele domenii la care am lucrat până acum Augmentarea datelor audio În capitolul , despre lucrul cu imagini, am învățat că puteți îmbunătăți acuratețea unui clasificator făcând modificări imaginilor de intrare Oglindindu-le, tăind sau aplicând alte transformări, am făcut rețeaua neuronală mai greu de antrenat și am ajuns la un model mai generalizat care pur și simplu nu se potrivea cu datele prezentate (nu uitați de problema supraajustării) Putem face exact la fel? Da! De fapt, putem folosi două abordări - una dintre ele este evidentă și funcționează cu forma de undă originală a sunetului, iar a doua, poate mai puțin evidentă, rezultă din decizia noastră de a folosi un clasificator bazat pe ResNet pentru imaginile cu spectrogramă cretă Să aruncăm mai întâi o privire asupra transformărilor audio conversii torchaudio La fel ca torchvision, torchaudio include un modul de transformări care efectuează transformări asupra datelor primite Numărul transformărilor oferite este însă mic, mai ales în comparație cu numărul pe care îl obținem atunci când lucrăm cu imagini Dacă sunteți interesat, lista completă poate fi găsită în documentație În această carte, ne vom concentra doar pe una dintre transformări - aceasta este torchaudio transforms PadTrim În cazul setului de date ESC- , suntem norocoși pentru că fiecare clip audio are aceeași lungime Acest lucru nu se întâmplă în lumea reală, desigur, dar rețelelor noastre neuronale le place (și uneori insistă, în funcție de modul în care sunt construite) să aibă intrări de aproximativ aceeași dimensiune PadTrim va prelua tensorul audio de intrare și fie îl va tăia la nr Augmentare audio lungime, sau tăiați astfel încât să nu depășească această lungime Dacă trebuie să tăiem clipul pentru a obține o lungime diferită, utilizați PadTrim astfel: audiO-tensor, rate = torchaudio load("test wav") audio tensor shape trimmed tensor = torchaudio transforms PadTrim(max len= )(audio orig) Cu toate acestea, dacă doriți o creștere care să schimbe efectiv sunetul unui sunet (de exemplu, adăugarea de ecou, zgomot sau modificarea tempoului unui clip), atunci nu aveți nevoie de modulul torchaudio se transformă Folosiți în schimb SoX Efecte Sox Nu știu de ce, dar nu face parte din modulul de transformări, totuși torchaudio sox effects SoxEffectsChain vă permite să creați un lanț de unul sau mai multe efecte SoX și să le aplicați fișierului de intrare Aceasta nu este interfața cea mai ușor de utilizat, așa că haideți să vedem cum funcționează în noua versiune a setului de date care modifică înălțimea fișierului de sunet: clasa ESC WithPitchChange(Setul de date): def init (seif,cale): #Obțineți lista de directoare din fișierele cale = Path(path) glob('* wav') ^Căutați lista și creați o listă de tupluri (nume fișier,labei) seif items = [(f,f name split("-")[- ] replace(" wav","")) pentru f în fișiere] self length = len(self items) self E = torchaudio sox effects SoxEffectsChain() seif E append effect to chain("piteh", [ ]) def getitem (seif, index): nume de fișier,labei = seif items[index] self E set input file(nume fișier) audio tensor, sample rate = seif E sox build flow effects() return audio tensor, labei def len (seif): returnează lungimea de sine În metoda init , creăm o nouă variabilă de instanță E, SoxEffectsChain care va conține toate efectele pe care dorim să le aplicăm datelor noastre audio Apoi cu append effect to Capitolul • Călătorie în lumea sunetelor lanțul adăugăm un nou efect care ia un șir care indică numele efectului și o serie de parametri de trimis către sox Puteți obține o listă de efecte disponibile sunând torchaudio efecte sox nume efect() Dacă ar fi adăugat un alt efect, acesta ar fi după ce am configurat efectul principal de înălțime, așa că dacă doriți să creați o listă de efecte individuale și să le aplicați aleatoriu, va trebui să creați lanțuri separate pentru fiecare dintre ele Când vine vorba de selectarea unui element pentru a reveni la încărcătorul de date, lucrurile funcționează puțin diferit În loc de torchaudio load() ne accesăm lanțul de efecte și îl direcționăm către un fișier cu set input f iiie Rețineți că această comandă nu descarcă un fișier! Pentru a face acest lucru, trebuie să folosim sox build flow effects(), care rulează SoX în fundal, aplică efectele într-un lanț și returnează informațiile despre tensor și rata de eșantionare pe care altfel le-am obține de la load() SoX este capabil de multe și nu voi intra în detalii despre toate efectele posibile pe care le puteți obține Vă sugerez să citiți documentația SoX (https://oreil ly/uLBTF), precum și să explorați list effects() și toate caracteristicile sale Aceste transformări ne permit să modificăm sunetul original, dar acest capitol petrece mult timp creând o conductă de procesare care funcționează cu imagini cu spectrogramă cretă Am putea face același lucru pe care l-am făcut pentru a genera setul de date original pentru această conductă, creând mostre audio modificate și apoi spectrograme, dar în această etapă generăm o mulțime de date pe care va trebui să le amestecăm în timpul rulării Din fericire, putem efectua unele transformări asupra spectrogramelor în sine SpecAugment Acum s-ar putea să vă gândiți: "Stai, acele spectrograme sunt doar imagini! Putem folosi orice transformare de imagine ne dorim!" Si da! Exact Dar fii atent; o tăiere aleatorie poate reduce suficiente frecvențe pentru a schimba potențial clasa de ieșire Setul nostru de date ESC- este mult mai puțin afectat, dar dacă faceți ceva precum recunoașterea vorbirii, cu creșterea Augmentare audio va trebui să ții cont de acest lucru O altă posibilitate interesantă este că, din moment ce știm că toate spectrogramele au aceeași structură (vor fi întotdeauna un diagramă de frecvență!), am putea crea transformări bazate pe analiza imaginilor care să funcționeze în mod specific în jurul acelei structuri În , Google a lansat un articol despre SpecAugment care vorbea despre noi rezultate de ultimă generație în multe seturi de date audio Echipa a obținut aceste rezultate folosind trei tehnici noi de creștere a datelor pe care le-a aplicat direct spectrogramei cretei: algoritmul de transformare dinamică a liniei temporale, mascarea frecvenței și mascarea timpului Nu vom lua în considerare algoritmul de transformare dinamică a liniei temporale, deoarece nu ne este de nici un folos, dar vom aplica transformări speciale pentru mascarea frecvenței și timpului mascarea frecvenței Mascarea de frecvență elimină aleatoriu o frecvență sau un set de frecvențe din intrarea audio Acest lucru face ca modelul să lucreze mai mult; pur și simplu nu își poate aminti intrările și clasa lor, deoarece acestea vor avea frecvențe diferite mascate în fiecare pachet În schimb, modelul va trebui să învețe alte funcții care pot determina cum să mapați intrarea în clasă, ceea ce ar trebui să aibă ca rezultat un model mai precis Pe spectrograma noastră cu cretă, acest lucru este confirmat de faptul că spectrograful nu afișează nimic pentru această frecvență la un moment dat Figura arată cum arată: în esență o linie goală trasată printr-o spectrogramă naturală Acesta este codul pentru o transformare personalizată care implementează mascarea frecvenței: clasa FrequencyMask(obiect): Exemplu: >>> transforms Compose([ >>> transforms ToTensor() >>> FrequencyMask(max width= J use mean=False), ">]) cm SpecAugment: o metodă simplă de creștere a datelor pentru vorbirea automată Recognitio, Daniel S Park et al ( ) (https://arxiv org/abs/ ) Capitolul • Călătorie în lumea sunetelor def init (seif, max width, use mean=True): seif max width = max width seif use mean = use mean def caii (seif, tensor): Argumente: tensor (Tensor): O imagine tensor de dimensiune (C, H, W) unde ar trebui aplicată masca de frecvență se intoarce: Tensor: Imagine transformată cu mască de frecvență start = random randrange( , tensor shape[ ]) end = start + random randrange(l, seif max width) if seif use mean: tensor[:, start:end, :] = tensor mean() altceva: tensor[:, start:end, :] = tensor de întoarcere def repr (seif): format string = seif class name + "(max width=" format string += str(self max width) + ")" format string += 'use mean=' + (str(self use mean) + ')') returnează format string După aplicarea transformării, PyTorch apelează metoda caii cu o reprezentare tensorală a imaginii (deci trebuie să o punem în lanțul Compose după convertirea imaginii într-un tensor, nu înainte) Presupunem că tensorul va fi în formatul canale x înălțime x lățime și trebuie să setăm valorile înălțimii într-un interval mic, fie zero, fie media imaginii (deoarece folosim spectrograme logaritmice, media ar trebui să fie zero, dar includem ambele opțiuni, astfel încât să puteți experimenta și să vedeți ce funcționează cel mai bine) Orez Mască de frecvență aplicată probei aleatoare ESC- Augmentare audio Intervalul este furnizat de parametrul max width, iar masca de pixeli rezultată va avea o lățime între și max pixels De asemenea, trebuie să alegem un punct de plecare arbitrar pentru mască, care se face folosind variabila de pornire În cele din urmă, ajungem la partea dificilă a acestei transformări - aplicăm masca noastră generată: tensor[:, start:end, :] = tensor mean() Totul nu este atât de rău Tensorul nostru are trei dimensiuni, dar trebuie să aplicăm această transformare tuturor canalelor roșii, verzi și albastre, așa că folosim operatorul gol: pentru a selecta totul în acea dimensiune Folosind start :end selectăm intervalul de înălțime și apoi orice se află în canalul de lățime, deoarece trebuie să aplicăm masca la fiecare pas de timp Și apoi în partea dreaptă a expresiei setăm valoarea; în acest caz tensor Rău() Dacă luăm un tensor aleatoriu din setul de date ESC- și îi aplicăm o transformare, atunci, așa cum se vede în Fig , această clasă creează masca necesară torchvision transforms Compose([FrequencyMask(max width= , use mean=False), torchvision transforms ToPILImage()])(torch rand( )) În continuare, să ne uităm la mascarea temporală Mascare temporară După ce am terminat masca de frecvență, putem trece acum la masca de timp, care face același lucru ca și masca de frecvență, dar în domeniul timpului Codul de aici este practic același: classTimeMask(obiect): Exemplu: >>> transforms Compose([ >>> transforms ToTensor(), >>> TimeMask(max width= , use mean=False), "]) def init (seif, max width, use mean=True): seif max width = max width seif use mean = use mean def caii (seif, tensor): Capitolul • Călătorie în lumea sunetelor Argumente: tensor (Tensor): imagine tensor de dimensiune (C, H, W) în care trebuie aplicată mascarea temporală se intoarce: Tensor: imagine transformată cu Time Mask start = random randrange( , tensor shape[l]) end = start + random randrange( , seif max width) if seif use mean: tensor[:, :, start:end] = tensor mean() altceva: tensor[:, :, start:end] = tensor de întoarcere def repr (seif): format string = seif class name + "(max width=" format string += str(self max width) + ")" format string += 'use mean=' + (str(self use mean) + ')') return format string După cum puteți vedea, această clasă este similară cu o mască de frecvență Singura diferență este că variabila noastră de pornire este acum situată într-un punct de pe axa înălțimii, iar când facem mascarea, arată astfel: tensor[:, start:end] = Acest lucru indică faptul că selectăm toate valorile primelor două dimensiuni ale tensorului și intervalul start:end în ultima dimensiune Din nou, putem aplica acest lucru tensorului aleatoriu din baza de date ESC- pentru a vedea că masca este aplicată corect, așa cum se arată în Figura torchvision transforms Compose([TimeMask(max width= , use mean=False), torchvision transforms ToPILImage()])(torch rând( )) Orez Mască temporară aplicată probei aleatoare ESC- Augmentare audio Pentru a finaliza mărirea, creăm o nouă transformare de înveliș care aplică una sau ambele măști imaginii spectrogramei: clasa PrecomputedTransformESC (Setul de date): def init (seif,path,dpi= ): fișiere = Path(path) glob('{}* wav png' format(dpi)) seif items = [(f,f name split("-")[- ] replace(" wav png","")) pentru f în fișiere] self length = len(self items) seif transforms = transforms Compose([ transforms ToTensor(), RandomApply([FrequencyMask(self max freqmask width)] p= , ), RandomApply([TimeMask(self max timemask width)]p= , ) ]) def getitem (seif, index): nume de fișier,labei = seif items[index] img = Image open(filename) return (seif transforms(img), labei) def len (seif): returnează lungimea de sine Încercați să repetați bucla de antrenament cu această creștere a datelor și vedeți dacă, la fel ca Google, puteți obține o precizie mai bună cu aceste măști Dar poate putem încerca altceva? Noi experimente Așadar, am creat două rețele neuronale - una bazată pe forma de undă brută a sunetului și cealaltă bazată pe imaginile spectrogramei cu cretă pentru a clasifica sunetele din setul de date ESC- Deși ați văzut deja că modelul bazat pe ResNet este mai precis și folosește capacități de transfer de învățare, ar fi interesant să experimentați și să creați o combinație a două rețele pentru a vedea dacă crește acuratețea sau, dimpotrivă, scade O modalitate ușoară de a face acest lucru este să reveniți la ansamblul din capitolul : pur și simplu combinați și media predicțiile În plus, nu am descris ideea de a construi o rețea bazată pe date brute de spectrogramă Dacă se creează un model Capitolul • Călătorie în lumea sunetelor care funcționează cu aceste date, ajută la precizia generală dacă este introdusă în ansamblu? Putem folosi și alte versiuni de ResNet sau să creăm o nouă arhitectură care să folosească diferite modele pre-antrenate, cum ar fi VGG sau Inception Explorați câteva dintre aceste opțiuni și încercați-le; experimentele mele arată că SpecAugment îmbunătățește precizia de clasificare a ESC- cu aproximativ % Concluzie În acest capitol, am folosit două strategii de clasificare audio foarte diferite, am aruncat o scurtă privire asupra bibliotecii torchaudio a lui PyTorch și am învățat cum să precalculăm transformările pe seturi de date în cazul în care transformările instantanee ar afecta serios timpul de antrenament Am vorbit despre două abordări ale creșterii datelor Ca un bonus neașteptat, am revenit la antrenarea modelului pe baza analizei imaginii, folosind învățarea prin transfer pentru a genera rapid un clasificator cu o acuratețe decentă în comparație cu alte clasificatoare prezentate în clasamentul bazei de date ESC- Aceasta încheie excursia noastră în domeniul imaginilor, testelor și fișierelor audio, deși vom reveni la ele în Capitolul când ne uităm la alte sarcini pentru care este folosit PyTorch Mai târziu, însă, vom analiza cum să depanăm modelele dacă nu se antrenează așa cum ar trebui sau nu se antrenează suficient de repede Surse suplimentare ■ "Interpretarea și explicarea rețelelor neuronale profunde pentru clasificarea semnalelor audio", Soren Becher și colab ( ), https://arxiv org/abs/ ■ "Arhitecturi CNN pentru clasificarea audio pe scară largă", Shawn Hershey et al ( ), https://arxiv org/abs/ v CAPITOLUL Depanarea modelelor PyTorch În capitolele precedente, am creat deja multe modele, iar acum ne vom uita pe scurt la interpretarea lor și vom afla ce se întâmplă în culise Luați în considerare utilizarea mapării de activare a clasei și a cârligelor PyTorch pentru a defini punctul central al deciziei modelului cu privire la modul de conectare a PyTorch la Google TensorBoard pentru depanare Vă voi arăta cum să utilizați flamegraphs pentru a identifica blocajele în transformări și conducte de antrenament, precum și un exemplu de accelerare a unei transformări lente În cele din urmă, vom analiza cum să schimbăm calculul cu memorie atunci când lucrați cu modele mari folosind puncte de întrerupere Dar mai întâi, câteva cuvinte despre date Ora trei noaptea Ce fac datele tale? Înainte de a vă scufunda în lumea magică a posibilităților TensorBoard și a punctelor de întrerupere a gradientului, întrebați-vă: Vă înțelegeți datele? Dacă clasificați intrarea, aveți un eșantion echilibrat pentru toate etichetele disponibile? Setul de date de instruire, validare și testare? Și în plus, ești sigur că marcajele sunt corecte? Se știe că seturi importante de date bazate pe analiza imaginilor, cum ar fi MNIST și CIFAR- (Institutul Canadien pentru Studii Avansate), conțin Capitolul • Depanarea modelelor PyTorch apăsați etichetele greșite Merită să le verificați pe ale dvs , mai ales dacă categoriile sunt asemănătoare între ele, precum rasele de câini sau soiurile de plante Simpla verificare a faptului că datele dvs sunt corecte vă poate economisi mult timp, de exemplu dacă descoperiți că o categorie de etichete include doar imagini minuscule, în timp ce toate celelalte categorii au exemple de rezoluție mai mare Deci, dacă v-ați asigurat că toate datele sunt în ordine, atunci să trecem la TensorBoard și să verificăm modelul pentru unele posibile probleme TensorBoard TensorBoard este o aplicație web concepută pentru a vizualiza diferite aspecte ale rețelelor neuronale Vă permite să vizualizați statistici în timp real, cum ar fi acuratețea, valorile de activare și pierderi și orice doriți să trimiteți printr-o rețea cu fir Deși a fost scris cu TensorFlow în minte, are un API destul de simplu, așa că lucrul cu acesta în PyTorch nu este diferit Să instalăm și să vedem cum să-l folosim pentru a ne face o idee despre modelele noastre Când citiți despre PyTorch, cel mai probabil veți întâlni link-uri către Am o aplicație numită Visdom (https://oreil ly/rZqv ), care este o alternativă la TensorBoard de la Facebook Înainte de PyTorch vl l, Visdom cu PyTorch a fost folosit pentru a susține vizualizări și alte biblioteci precum tensorboardx puteau fi integrate cu Tensor Board Deși suportul pentru Visdom nu a fost suspendat, includerea integrării oficiale a TensorBoard în versiunea și mai sus sugerează că dezvoltatorii PyTorch au recunoscut TensorBoard ca instrument de vizualizare a rețelei neuronale de facto TensorBoard Instalarea TensorBoard Puteți instala TensorBoard folosind pip sau conda: pip install tensorboard conda install tensorboard Versiunea PyTorch a TensorBoard trebuie să fie vl sau mai mare TensorBoard poate fi lansat prin linia de comandă: tensorboard logdir=rulează Puteți merge apoi la http://[your-machine]: unde veți vedea ecranul de bun venit (Figura ) Acum putem trimite date către aplicație Orez TensorBoard Trimiterea datelor către TensorBoard Modulul pentru utilizarea TensorBoard cu PyTorch este în torch utils tensorboard: Capitolul • Depanarea modelelor PyTorch din torch utils tensorboard import SummaryWriter scriitor = SummaryWriter() writer add scalar('exemplu', ) Pentru a comunica cu TensorBoard, folosim clasa SummaryWriter și locația standard de înregistrare a ieșirii, ,/runs, dar puteți trimite și un scalar cu add scalar Deoarece SummaryWriter rulează asincron, ar putea dura ceva timp, dar ar trebui să vedeți actualizarea TensorBoard (Figura - ) Nu foarte impresionant, nu? Să scriem o buclă care trimite actualizări de la un punct de pornire: import aleatoriu valoare = writer add scalar('test loop', value, ) for i in range(l, ): valoare += aleatoriu random() - , writer add scalar('test loop', value, i) În timpul buclei, TensorBoard construiește un grafic de mers aleatoriu, pe care îl facem din (Figura ) Dacă rulăm din nou codul, vom vedea că a generat o altă rulare în interiorul afișajului, iar în partea stângă a paginii web, putem alege dacă vrem să vedem toate rulările sau doar câteva Orez Exemplu de punct de date în TensorBoard TensorBoard Îl putem folosi pentru a înlocui instrucțiunile prinț în bucla de antrenament și pentru a trimite modelul în sine pentru a obține o reprezentare în TensorBoard torță de import import torchvision din torch utils tensorboard import SummaryWriter din seturi de date de import torchvision, transformări, modele scriitor = SummaryWriter() model = models resnetl (False) writer add graph(model,torch rând([ , , , ])) def train(model, optimizator, loss fn, train data loader, test data loader, epochs= ): model = model train() iterație = pentru epocă în interval (epoci): model train() pentru lot în train loader: optimizer zero grad() input, target = lot output = model(input) loss = loss fn(output, target) writer add scalar('loss', loss, epoch) loss backward() optimizator step() model eval() num correct = num examples = pentru lot în val loader: input, target = lot output = model(input) correct = torch eq(torch max(F softmax(output), dim=l)[l], target) view(- ) num correct += torch sum(corect) item() num examples += corect shape[ ] print("Epoca {}, acuratețe = {: f}" format(epoch, num corect / num exemple) ) writer add scalar('accuracy', num correct / num examples, epoch) iterații += Când vine vorba de add graph() , trebuie să trimiteți un tensor pentru a urmări modelul, precum și modelul în sine Odată ce se întâmplă acest lucru, veți vedea GRAPHS care apar în TensorBoard (Figura ), iar făcând clic pe blocul mare ResNet, veți vedea detalii suplimentare ale structurii modelului Capitolul • Depanarea modelelor PyTorch TensorBoard De la $ Q tfa în jos W*b Q tqncw* oilkeyp în eMrr *oU nq Mod implicit- Q FinctagB (rtxyJar exegewlopz suppcrted) bgtyeOipe MrjrtWrtel LEE" VP-ATlVt WM :: a □ tiWkMjp Orez Graficul de mers aleatoriu în TensorBoard Orez Vizualizare ResNet TensorBoard Acum avem capacitatea de a trimite informații despre acuratețe și pierdere, precum și structura modelului către TensorBoard Prin agregarea mai multor serii de informații despre acuratețe și pierderi, putem vedea dacă o anumită rulare este diferită de toate celelalte, ceea ce poate fi destul de util pentru a afla de ce un antrenament a funcționat slab Vom reveni la TensorBoard într-un moment, dar mai întâi să ne uităm la alte caracteristici care pot fi depanate cu PyTorch Cârlige PyTorch RuTorch are cârlige - funcții care pot fi atașate la un tensor sau modul în timpul unei treceri înainte sau înapoi Când PyTorch întâlnește un modul cu un cârlig în timpul unei treceri, apelează cârligele înregistrate Un cârlig înregistrat pe un tensor va fi apelat la calcularea gradientului său Cârligele sunt modalități potențial puternice de a manipula modulele și tensorii, deoarece puteți înlocui complet ieșirea a ceea ce intră în cârlig, dacă este necesar Puteți schimba gradientul, masca activarea, înlocuiți toate offset-urile din modul și așa mai departe Totuși, în acest capitol, le vom folosi ca o modalitate de a obține informații despre rețea în timp ce transmitem date Într-un model ResNet- , putem atașa un cârlig înainte la o anumită parte a modelului folosind register forward hook: def print hook(self, module, input, output): print(f"Forma de intrare este {input shape}") model = models resnetl () hook ref=model fc register forward hook(print hook) model(torch rând([ , , , ])) hook ref remove() model(torch rând([ , , , ])) Dacă rulați acest cod, veți vedea textul rezultat care arată formularul de intrare pentru stratul de clasificator liniar al modelului Rețineți că a doua oară când rulați un tensor aleatoriu prin model, nu ar trebui să vedeți operatorul prinț Când adăugăm un cârlig la un modul sau tensor, PyTorch returnează o referință la acel cârlig Trebuie să-l salvăm întotdeauna (aici o facem în hook ref) și când pro- Capitolul • Depanarea modelelor PyTorch ces pentru a apela remove() Dacă nu salvați linkul, acesta se va bloca și va ocupa memorie valoroasă (și va pierde resurse de calcul în timpul transferului) Cârligele înapoi funcționează exact la fel, cu excepția că în schimb apelați register backward hook() Desigur, dacă putem executa comanda print(), atunci o putem trimite la TensorBoard! Să vedem cum să folosiți cârlige și TensorBoard pentru a obține statistici importante despre straturi în timpul antrenamentului Reprezentarea grafică a mediei și a abaterii standard Mai întâi, definim o funcție care va trimite media și abaterea standard a stratului de ieșire către TensorBoard: def send stats(i, modul, intrare, ieșire): writer add scalar(f"{i}-mean",output data std()) writer add scalar(f"{i}-stddev",output data std()) Nu putem folosi acest cod pentru a configura un cârlig direct, dar cu funcția partial() putem crea mai multe cârlige directe care se vor atașa la un strat cu o valoare i dată, ceea ce asigură că valorile corecte sunt trecut la parcelele corespunzătoare din TensorBoard: din functools import parțial pentru i,m în enumerate(model children()): m register forward hook(parțial(send stats, i)) Rețineți că folosim model children() care se va atașa numai la fiecare top box a modelului, deci dacă avem un nn Sequential() (care va fi și în modelul bazat pe ResNet), apoi atașăm cârligul doar la acest bloc, și nu la blocul fiecărui modul individual din lista nn Sequential Dacă antrenăm un model cu o funcție normală de tren, ar trebui să vedem că activarea începe să curgă în TensorBoard (Figura ) În interfața de utilizare, va trebui să comutați la ora fizică, deoarece nu mai trimitem informații despre pași înapoi către TensorBoard folosind cârlige și obținem informații despre modul doar atunci când apelăm un cârlig PyTorch TensorBoard Tcnr (x o ird zslmlz rucnvt Cu b Orez Media și abaterea standard a modulelor din TensorBoard În capitolul , am scris despre modul în care straturile rețelei neuronale ar trebui să aibă în mod ideal o medie de și o abatere standard de pentru a ne asigura că calculele noastre nu merg la infinit sau la zero Uită-te la straturi din TensorBoard Par să rămână în acel interval de valori? Există vârfuri și văi pe diagramă? Dacă da, acest lucru poate indica faptul că rețeaua întâmpină dificultăți de învățare Pe fig media este aproape de zero, dar abaterea standard este, de asemenea, destul de aproape de zero Dacă acest lucru se întâmplă la mai multe niveluri în rețeaua dvs , poate fi un semn că funcțiile dvs de activare (cum ar fi ReLU) nu sunt potrivite pentru domeniul cu probleme Poate merită să experimentați cu alte caracteristici pentru a vedea dacă îmbunătățesc performanța modelului; LeakyReLU de la PyTorch este o alternativă bună care oferă activări similare cu ReLU standard, dar oferă mai multe informații care pot ajuta la învățare Capitolul • Depanarea modelelor PyTorch Aceasta încheie recenzia noastră despre TensorBoard Dacă mai aveți întrebări, consultați resursele suplimentare de la sfârșitul capitolului Între timp, să ne dăm seama cum să facem ca modelul să explice cum a ajuns la o anumită soluție Carduri de activare a clasei Maparea activării clasei (CAM) este o metodă de vizualizare a activărilor de rețea după clasificarea unui tensor de intrare În clasificatoarele bazate pe analiza imaginilor, acestea sunt adesea afișate ca o hartă termică deasupra imaginii originale, așa cum se arată în Fig Pe baza hărții termice, putem deduce modul în care rețeaua a selectat pisica persană din clasele ImageNet disponibile Cele mai mari activări ale rețelei sunt observate în jurul botului și corpului pisicii, în timp ce activările sunt scăzute în alte părți ale imaginii Pentru a genera harta termică, surprindem activările ultimului strat de convoluție al rețelei chiar înainte ca acesta să treacă la stratul liniar, deoarece astfel putem vedea ceea ce straturile CNN îmbinate consideră important atunci când trecem la imaginea finală transformarea clasei Orez Evidențiați hărțile de activare a clasei TensorBoard Datorită funcției de cârlige PyTorch, acest lucru este destul de ușor Înfășurăm cârligul în clasa SaveActivations: clasa SaveActivations(): activations=Niciuna def init (seif, m): self hook = m register forward hook(self hook fn) def hook fn(self, module, input, output): seif features = output data def remove(self): seif hook remove() Apoi ne împingem imaginea prin rețea (normalizare pentru ImageNet), aplicăm softmax pentru a converti tensorul de ieșire în probabilități și folosim torch topk() pentru a extrage atât probabilitatea maximă, cât și indexul acesteia: torță de import din modele de import torchvision, transformă din torch nn import functional as F casper = Image open("casper jpg") # Medianet/std normalize = transforms Normalize( medie=[ , , , , , ], std=[ , , , , , ] ) preproces = transforms Compose([ transforms Resize(( , )), transforms ToTensor(), normaliza ]) display transform = transforms Compose([ transformă Redimensionare(( , ))]) casper tensor = preproces(casper) model = models resnetl (pretrained=True) model eval() casper activations = SaveActivations(model layer ) prediction = model(casper tensor unsqueeze( )) pred probabilities = F softmax(prediction) data squeeze() casper activations remove() torch topk(pred probabilities,l) Capitolul • Depanarea modelelor PyTorch Nu am explicat încă ce este torch nn funcțional Mai bine gândiți-vă doar la el ca la ceva care conține implementarea funcțiilor prezentate în torch nn De exemplu, dacă instanțiați torță nn softmax() , apoi obțineți obiectul cu metoda forward(), care efectuează softmax Dacă te uiți la sursa reală a torch nn softmax(), poți vedea că tot ceea ce face această metodă este să apelezi F softmax() Deoarece nu dorim ca softmax să facă parte din rețea în acest caz, numim doar funcția de bază Dacă intrăm în casper activations activations, vom vedea că este umplut cu un tensor care conține activările ultimului strat de convoluție necesar Apoi facem următoarele: fts = sf[ ] caracteristici[idx] prob = np exp(to np(log prob)) preds = np argmax(prob[idx]) fts np = to np(fts) f =np dot(np rollaxis(fts np, , ), prob[idx]) f -=f min() f /=f max() f plt imshow(dx) plt imshow(scipy mise imresize(f , dx shape), alpha= , , cmap='jet'); Acesta este modul în care calculăm produsul punctual al activărilor Hărții (rețineți că indexăm la datorită grupării tensorului de intrare în prima dimensiune) După cum am scris în Capitolul , PyTorch stochează datele imaginii în format C x H x W, așa că trebuie să le redimensionăm înapoi la H x L x C pentru a afișa imaginea Apoi eliminăm minimele de la tensor și scalam la maxim pentru a ne asigura că ne concentrăm doar pe cele mai mari activări din harta termică rezultată (adică cea care vorbește în favoarea pisicii persane) În cele din urmă, folosim puterea minunată a matplot pentru a trasa selecția hărții de căldură și apoi tensorul de deasupra, redimensionat și cu harta de culori standard pentru jet Rețineți că, prin înlocuirea idx cu o altă clasă, puteți vedea o hartă termică care arată ce activări (dacă există) sunt prezente în imagine TensorBoard la clasificare Dacă modelul prezice o mașină, puteți vedea ce părți ale imaginii au fost folosite pentru a lua această decizie Al doilea cel mai probabil este iepurele angora, iar din CAM putem vedea că rețeaua se concentrează pe blana sa pufoasă! Acum știm ce face modelul atunci când ia o decizie Să ne oprim aici și să aflăm pe ce își petrece modelul cea mai mare parte a timpului în timp ce se află în ciclul de formare sau când ia decizii flamografii Spre deosebire de TensorBoard, flamegraph-urile nu au fost construite special pentru rețelele neuronale Și nici măcar pentru TensorFlow De fapt, flamegraph-urile datează dinainte de , când inginerul Brendan Gregg de la Joyent a venit cu o tehnică de depanare pentru o sarcină în MySQL Ideea a fost de a lua urme masive de stivă și de a le converti într-o singură imagine, care ar arăta ea însăși ce se întâmplă în CPU într-o perioadă de timp Acum Brendan Gregg lucrează la Netflix El a publicat o cantitate mare de lucrări legate de performanța sistemului Le puteți citi pe site-ul său http://www brendan-gregg com/ Folosind exemplul de inserare a unui rând într-un tabel în MySQL, eșantionăm stive de sute sau mii de ori pe secundă De fiecare dată când obținem o urmărire a stivei care ne arată toate funcțiile de pe stivă la acel moment în timp Prin urmare, dacă ne aflăm într-o funcție care a fost apelată de o altă funcție, vom obține o urmărire care include atât funcțiile apelantului, cât și ale apelantului Un exemplu de urmă arată astfel: , % , % mysqld [kernel kallsyms] [k] entry SYSCALL fastpath eu - e nt ry SYS CAL L fa st cale eu | , % sys io getevents citeste evenimente Capitolul • Depanarea modelelor PyTorch programa programa termina sarcina switch | , % sys fsync do fsync vfs fsync range ext sync file eu | , % jbd complete tranzacție j bd log wait commit eu | , % cond resched preempt schedule common program Există multe din aceste informații; iată doar un mic exemplu de urmărire a stivei de KB Chiar și cu o astfel de comparație (care poate să nu fie prezentă în toate urmele stivei), este dificil să ne dăm seama ce se întâmplă aici Din fig Figura arată că versiunea flamegraph este încă simplă și directă Axa y este înălțimea stivei, iar axa x, deși nu reprezintă timpul, este o reprezentare a cât de des se află această funcție pe stivă după eșantionare Dacă am avea o funcție în partea de sus a stivei care acoperă, să zicem, % din grafic, am ști că programul petrece foarte mult timp pe această funcție și că probabil ar trebui să verificăm funcția pentru a înțelege de ce totul se întâmplă așa de mult timp S-ar putea să vă întrebați: "Ce legătură are asta cu învățarea profundă?" Foarte corect; în cercetarea învățării profunde, acesta este o întâmplare obișnuită: când învățarea încetinește, doar cumperi încă GPU-uri sau plătești Google pentru procesoare tensor Dar uneori nu este GPU Poate că conversia este foarte lentă și noile adaptoare grafice strălucitoare nu funcționează atât de bine pe cât ne-am dori La prima vedere, flamegraph-urile oferă o modalitate ușoară de a identifica blocajele CPU și sunt adesea găsite în soluții practice de deep learning De exemplu, luați în considerare toate transformările grafice despre care am vorbit în Capitolul Cele mai multe dintre ele folosesc Biblioteca Python Imaging și sunt complet dependente de procesor Lucrând cu seturi mari de date, vei face aceste transformări din nou și din nou, ca parte a ciclului tău de învățare! Flamegraphs Graficul flăcării Orez Flamegraph MySQL Deși nu sunt adesea menționate în contextul învățării profunde, flamegraphurile sunt un instrument excelent de reținut Cel puțin, poți să le arăți șefului tău și să spui că munca ta depinde într-adevăr de GPU și până joia viitoare - nosebleed - ai nevoie de procesoare tensor! Între timp, să ne uităm la obținerea de flamegraph-uri din bucle de antrenament, precum și la rezolvarea problemei conversiei lente prin trecerea de la CPU la GPU Instalarea py-spy Există multe modalități de a genera urme de stivă care pot fi convertite în flamegraphs Cel despre care am vorbit în secțiunea anterioară a fost creat folosind instrumentul sofisticat și eficient Linux Perf Vom lua calea mai ușoară și vom folosi py-spy, un profiler de stivă bazat pe Rust, pentru a genera direct flamegraphs Instalați-l prin pir: pip install py-spy Găsiți ID-ul procesului (PID) al procesului care rulează și atașați py-spy cu argumentul pid: py-spy flame profile svg pid Capitolul • Depanarea modelelor PyTorch Sau treceți un script Python Mai întâi, să-l rulăm pe un script Python simplu: torță de import import torchvision def get model(): returnează torchvision models resnetl (pretrained=True) def get pred(model): model de returnare(torch rand([ , , , ])) model = get model() pentru i în interval (l, ): get pred(model) Salvați codul ca flametest py și rulați py-spy pe el, preluând probe de de ori pe secundă și repetând în buclă timp de de secunde: py-spy -d -d flame profile svg python t py Deschideți fișierul profile svg într-un browser și priviți graficul rezultat Citirea Flamegraph Pe fig Figura arată cum ar trebui să arate graficul (din cauza eșantionării, acesta poate arăta puțin diferit) Îți atrage imediat atenția că graficul merge în jos, nu în sus, py-spy scrie flamegraphs în format isicie, astfel încât stiva arată ca stalactite și nu ca un flamegraph clasic Prefer formatul standard, dar py-spy nu vă va lăsa să îl schimbați În general, acest lucru nu este atât de important RU- ₽U Orez Flamegraph pe ResNet Încărcare și retragere Flamegraphs Se poate observa că cea mai mare parte a timpului este cheltuită pe diverse apeluri pentru ward() și acest lucru este logic, deoarece facem o mulțime de predicții Ce zici de acele blocuri minuscule din stânga? Dacă faceți clic pe ele, veți vedea fișierul SVG mărit (Figura ) Aici vedem un script care instalează modulul ResNet- și de asemenea apelează load state dict() pentru a încărca greutățile salvate de pe disc (a fost numit cu pretrained=True) Faceți clic pe Reset Zoom pentru a reveni la flamegraph la scară completă Bara de căutare din dreapta va evidenția liniile relevante în violet dacă încercați să găsiți o caracteristică Încercați să faceți acest lucru cu resnet și va afișa fiecare apel de funcție din stiva unde este resnet în nume Acest lucru poate fi util pentru a găsi un număr mic de caracteristici pe stivă sau pentru a vedea cât de des apare acest model pe o diagramă Joacă-te puțin cu SVG și vezi cât de mult timp CPU iau de la CPU lucruri precum Batch-Norm și subeșantionarea În continuare, vom analiza o modalitate de a folosi flamegraphs pentru a găsi o problemă, a o remedia și a o verifica cu un alt flamegraph Orez Flamegraph detaliat Capitolul • Depanarea modelelor PyTorch Rezolvarea problemei transformării lente În situații reale, o parte a conductei de date poate duce la o performanță lentă Această problemă merită o atenție specială, deoarece în timpul antrenamentului apare adesea o transformare lentă, cauzând dificultăți uriașe în crearea modelului Iată un exemplu de conductă de transformare și încărcător de date: torță de import import torchvision din torță import optim import torch nn ca nn din seturi de date de import torchvision, transformări, modele import torch utils data din imaginea de import PIL import numpy ca np dispozitiv = "cuda: " model = models resnetl (pretrained=True) model to (dispozitiv) clasa BadRandom(obiect): def caii (seif, img): img np = np array(img) aleatoriu = np random random sample(img np shape) out np = img np + aleatoriu out = Image fromarray(out np astype('uint '), 'RGB') întoarce-te afară def repr (seif): str = f"{self class name }" întoarcere str train data path = "somn/tren" image transforms = torchvision transforms Compose( [transforms Resize(( , )),BadRandom(), transforms ToTensor()]) Nu vom face un ciclu complet de antrenament; în schimb, simulăm epoci prin simpla extragere a imaginilor din încărcătorul de date de antrenament: train data = torchvision datasets ImageFolder(root=train data path, transform=image transforms) batch size= train data loader = torch utils data DataLoader(train data, batch size=batch size) Rezolvarea problemei transformării lente optimizator = optim Adam(model parameters(), lr= e- ) criteriu = nn CrossEntropyLoss() def train(model, optimizator, loss fn, train loader, val loader, epochs= , device='cuda: '): model to (dispozitiv) pentru epocă în interval (epoci): print(f"epoch {epoch}") model train() pentru lot în train loader: optimizer zero grad() ww, target = lot ww = ww to(device) target= target la(dispozitiv) ieșire = model(ww) pierdere = loss fn(ieșire, țintă) loss backward() optimizator step() model eval() num correct = num examples = pentru lot în val loader: input, target = lot input = input to(device) target= target to(device) output = model(input) corect = torch eq(torch max(output, dim=l)[l], target) view(- ) num corect += torch sum(corect) item() num examples += corect forma[ ] print("Epocă {}, acuratețe = {: f}" format(epocă, num corect / num exemple)) tren(model, optimizator, criteriu, train data loader, train data loader,epochs= ) Să rulăm acest cod prin py-spy așa cum am făcut înainte: py-spy -d -d flame slowloader svg python slowloader py Dacă deschideți fișierul slowloader svg rezultat, veți vedea ceva similar cu Figura Deși flamegrapher-ul este ocupat în principal să încarce imagini și să le convertească în tensori, , % din timpul de eșantionare este petrecut atunci când se aplică zgomot aleatoriu Implementarea BadRandom aplică zgomot în stadiul PIL, nu în stadiul tensor, motiv pentru care folosim biblioteca de imagini și NumPy mai degrabă decât PyTorch în sine Deci prima idee ar fi probabil să rescrieți transformarea Capitolul • Depanarea modelelor PyTorch Orez Flamegraph cu BadRandom astfel încât să funcționeze cu tensori și nu cu imagini PIL Rețineți că atunci când performanța se schimbă, este întotdeauna important să măsurați totul corect Există un lucru interesant care a fost prezent încă de la începutul cărții, deși nu i-am acordat atenție până acum: ați observat că extragem pachete din încărcătorul de date și apoi le punem în GPU? Deoarece conversiile au loc atunci când încărcătorul primește pachete din clasa setului de date, aceste conversii vor avea loc întotdeauna în CPU În unele cazuri, acest lucru poate duce la o gândire laterală nebună Aplicăm zgomot aleatoriu fiecărei imagini Ce se întâmplă dacă am putea aplica zgomot aleatoriu fiecărei imagini în același timp? La prima vedere, acest lucru poate părea complicat: adăugăm zgomot aleatoriu imaginii Putem scrie acest lucru ca x + y, unde x este imaginea noastră și y este zgomotul Știm că imaginea și zgomotul sunt tridimensionale (lățime, înălțime, canale), așa că tot ce facem este să înmulțim matricele Și în pachet o vom face de ori Repetăm fiecare imagine pe măsură ce o preluăm din încărcător Dar rețineți că la sfârșitul procesului de încărcare, imaginile sunt convertite în tensori, pachete [ , c, h, | Este posibil să adăugați doar un tensor aleatoriu de forma [ , c, h, > , ms ± , ps per buclă (media ± dev standard a rulări, bucle fiecare) gpu tl = torch rand( , , , ) to("cuda") gpu t = torch rand( , , ) ) to("cuda") xtimeit gpu tl + gpu t >> ps ± ns per buclă (media ± dev standard a rulări, bucle fiecare) Acest lucru este de aproape de ori mai rapid Nu putem efectua această transformare în încărcătorul de date, dar efectuăm operații cu matrice după ce obținem întregul pachet: def add noise gpu(tensor, device): random noise = torch rand like(tensor) to(device) return tensor add (random noise) Adăugați această linie în bucla de învățare după input to(device): intrare = add noise gpu (intrare, dispozitiv) Apoi eliminați transformarea BadRandom din conducta de transformare și testați din nou cu py-spy Noul flamegraph este prezentat în fig Totul se întâmplă atât de repede încât procesul nu mai este afișat nici măcar la rata noastră de eșantionare Tocmai am accelerat dezvoltarea codului cu aproape %! Acum, nu toate transformările standard pot fi scrise pentru GPU, dar dacă este posibil și transformarea încetinește, atunci cu siguranță merită luat în considerare Acum că am acoperit calculul, este timpul să ne uităm la un alt lucru evident - memoria În special, memoria GPU-urilor Orez Flamegraph cu zgomot aleatoriu cu calcul accelerat pe GPU Capitolul • Depanarea modelelor PyTorch Probleme de depanare GPU În această secțiune, vom arunca o privire mai atentă asupra GPU-ului în sine Vei afla în curând că atunci când antrenezi modele mari, GPU-ul tău strălucitor pe care ai cheltuit mulți bani (sau, mai înțelept, l-ai legat de o instanță cloud) cade regulat în genunchi, plângându-se amar de lipsa memoriei Dar are gigabyte întregi de memorie! Cum se pot termina? Modelele tind să absoarbă multă memorie De exemplu, ResNet- are aproximativ de milioane de activări, toate acestea ocupând spațiu prețios de memorie GPU Să vedem cum să ne uităm în interiorul acestuia pentru a determina ce s-ar putea întâmpla dacă îți epuizează memoria Verificare GPU Presupunând că utilizați un GPU NVIDIA (verificați site-ul web al driverului furnizorului dvs alternativ de GPU pentru utilitare native dacă utilizați altceva), instalarea CUDA include un instrument de linie de comandă destul de util, nvidia-smi Când este rulat fără argumente, acest instrument vă poate oferi un instantaneu al memoriei utilizate pe GPU și, chiar mai bine, poate arăta exact cum este utilizată! Pe fig Figura arată rezultatul rulării nvidia-smi într-un terminal În notepad, puteți invoca utilitarul cu ! nvidia-smi Acesta este un exemplu de echipament personal de acasă care funcționează la Ti Folosesc mai multe notebook-uri, fiecare ocupă o parte din memorie, dar unul ocupă grozav de GB! Puteți obține PID-ul curent al unui notebook folosind os getpid() Se pare că procesul care folosea cea mai mare memorie a fost de fapt blocnotesul experimental pe care l-am folosit pentru a testa transformările GPU în secțiunea anterioară! Imaginați-vă cât de repede se epuizează memoria ocupată de model, datele lotului și datele înainte și înapoi Probleme de depanare GPU ianeubuntu:~/notebooks$ nvidia-smi Vineri iunie : : I NVIDIA-SMI Versiunea driverului: I eu +- + * I GPU Nome Persistență-MI Bus-Id Disp AI Volatile Uncorr ECC II Fan Temp Perf Pwr:Utilizare/CapI Utilizare memorie I GPU-Util Campute M I Eu - + - I GeForce GTX Oprit I : : Activat IN/AI I * C P W / W I MIV / MIV I % Implicit I Procese: Utilizarea memoriei GPU Tip PID GPU Proces nici unul G /usr/lib/xorg/Xorg MB G /usr/bin/gnome-shell MB C /bome/ian/anaconda /bin/python MB c /home/i on/onoco nda /bi n/python MIB c /hane/i an/ana c nda /bi n/python MB c /home/ian/anaconda /b\n/python SM B c /hane/ian/anaconda /bin/python MIB Orez rezultate nvidia-smi Am și câteva procese care rulează, care, în mod surprinzător, sunt responsabile de grafică, și anume serverul X și GNOME Dacă nu ați creat o mașină locală, probabil că nu le veți vedea De asemenea, PyTorch alocă o parte de memorie pentru sine și CUDA per proces, care ocupă aproximativ , GB de memorie Aceasta înseamnă că este mai bine să lucrați la un singur proiect la un moment dat și să nu lăsați Jupyter Notebook să lucreze la toate deodată, așa cum am făcut mine (puteți folosi meniul Kernel pentru a încheia procesul Python conectat la notebook) Rularea nvidia-smi de la sine va oferi un instantaneu actual al utilizării GPU-ului, dar puteți obține o ieșire continuă folosind indicatorul - Iată un exemplu de comandă care se va reseta Capitolul • Depanarea modelelor PyTorch imprimați marca temporală, memoria utilizată, memoria liberă, memoria totală și utilizarea GPU-ului la fiecare secunde: nvidia-smi query-gpu=timestamp, memorie utilizată, memorie freejmemory totaljUtilization gpu format=csv - Dacă chiar credeți că GPU-ul dvs folosește mai multă memorie decât ar trebui, puteți încerca să conectați un dispozitiv de curățare a memoriei în Python Dacă aveți tensor to be deleted, nu mai aveți nevoie de el și doriți să îl eliminați din GPU, atunci utilizați biblioteca fast ai și comanda del: import gc del tensor to be deleted gc collect() Dacă creați și recreați multe modele în Jupyter Notebook, este posibil să fi observat că ștergerea unor referințe și rularea programului de curățare a memoriei cu gc collect() determină recuperarea unei anumite memorie Dacă problemele de memorie persistă, continuați să citiți pentru că veți găsi soluția mai jos! Crearea gradientului de puncte de control În ciuda tuturor trucurilor de ștergere și a programelor de curățare a memoriei pe care le-am descris în secțiunea anterioară, este posibil să nu fie încă suficientă memorie Următorul pas pentru majoritatea aplicațiilor este reducerea dimensiunii pachetului de date care trece prin model în timpul ciclului de instruire Acest lucru va funcționa, dar veți crește timpul de antrenament pentru fiecare epocă și este probabil ca modelul să nu fie la fel de bun ca unul similar antrenat cu suficientă memorie pentru a gestiona seturi mari de date, deoarece veți vedea mai multe seturi de date la fiecare rulare Cu toate acestea, pentru modelele mari în PyTorch, putem schimba calculul computerizat cu memorie folosind punctul de întrerupere a gradientului Una dintre problemele când lucrați cu modele mari este că trecerile înainte și înapoi creează multe stări intermediare, fiecare dintre acestea ocupând memoria GPU Scopul creării gradientului punctelor de control este reducerea Probleme de depanare GPU numărul de stări care pot fi în GPU prin segmentarea modelului Adică, cu un model nesegmentat, dimensiunea pachetului poate fi de - ori mai mare, iar acest lucru este compensat de instruire care necesită resurse de calcul semnificative În timpul unei treceri înainte, PyTorch salvează intrarea și parametrii într-un segment, dar nu execută trecerea înainte în sine În timpul trecerii înapoi, PyTorch le preia și trecerea înainte este calculată pentru acel segment Valorile intermediare sunt transmise segmentului următor, dar trebuie efectuate numai segment cu segment Împărțirea modelului în segmente se face prin lanternă utilitati checkpoint checkpoint sequential() Funcționează pe straturi nn Sequential sau liste de straturi generate, cu condiția ca acestea să fie în aceeași ordine ca și în model Iată cum ar funcționa cu modulul de caracteristici din AlexNet: din torch utils checkpoint import checkpoint sequential import torch nn ca nn clasa CheckpointedAlexNet(nn Module): def init (seif, num classes= , chunks= ): super(CheckpointedAlexNet, seif) init () seif features = nn Sequential( nn Conv d( , , kernel size=ll, stride= , padding= ), nn ReLU(inplace=True), nn MaxPool d(kernel size= , stride= ), nn Conv d( , , kernel size= , padding= ), nn ReLU(inplace=True), nn MaxPool d(kernel size= , stride= ), nn Conv d( , , kernel size= , padding=l), nn ReLU(inplace=True), nn Conv d( , , kernel size= , padding=l), nn ReLU(inplace=True), nn Conv d( , , kernel size= , padding=l), nn ReLU(inplace=True), nn MaxPool d(kernel size= , stride= ), ) self avgpool = nn AdaptiveAvgPool d(( , )) seif clasifier = nn Sequential( nn Droout(), nn Liniar( * * , ), nn ReLU(inplace=True), nn Droout(), Capitolul • Depanarea modelelor PyTorch nn Linear( , ), nn ReLU(inplace=True), nn Linear( , num classes), ) def înainte(self, x): x = checkpoint sequential(self features, chunks, x) x = seif avgpool(x) x = x view(x size( ), * * ) x = seif clasificator(x) returnează x După cum puteți vedea, nu s-a schimbat mare lucru Crearea punctelor de întrerupere devine o simplă completare la modele atunci când este necesar Am adăugat parametrul chunks la noua versiune a modelului: implicit este împărțit în două segmente Tot ce mai rămâne de făcut este să apelați checkpoint sequential cu modulul de caracteristici, numărul de segmente și intrarea Asta e tot! Rețineți că crearea punctelor de întrerupere nu funcționează bine cu straturile BatchNorm sau Drop out, deoarece interacționează cu trecerea înainte Pentru a evita acest lucru, puteți crea pur și simplu puncte de întrerupere pe o parte a modelului înainte și după aceste straturi În Check pointedAlexNet, am putea împărți modulul clasificator în două părți: una care conține straturile Dropout fără puncte de întrerupere și modulul final nn Sequential care conține straturile liniare; setați puncte de întrerupere pe care ni le-ar putea plăcea în cazul caracteristicilor Dacă trebuie să reduceți dimensiunile loturilor pentru a vă rula modelul, gândiți-vă la punctele de întrerupere, nu la un GPU mai mare! Concluzie Sper că acum ești bine înarmat, dacă dintr-o dată ceva a mers prost în antrenamentul modelului Acum aveți la dispoziție o varietate de instrumente, de la curățarea datelor până la rularea graficelor cu flacără sau vizualizarea TensorBoard Ați învățat, de asemenea, cum pot fi folosite punctele de întrerupere pentru a schimba memoria pentru calculele de transformare GPU și invers Concluzia Cu un model antrenat și depanat corespunzător, suntem pe drumul spre etapa cea mai dificilă: funcționarea modelului într-un mediu de producție, sau pur și simplu producție Surse suplimentare ■ Documentația TensorBoard, https://oreil ly/MELKI ■ TensorBoard GitHub, https://oreil ly/ bIM ■ Fast ai, Lecția : Privind în interiorul modelului, https://oreil ly/K dz- ■ Investigarea BatchNorm în cadrul unui model ResNet, https://oreil ly/EXdK ■ Aprofundare în flamegraphing cu Brendan Gregg, https://oreil ly/ Ectg ■ Documentație nvidia-smi, https://oreil ly/WlgOn ■ Documentația PyTorch Gradient Breakpoint, https://oreii io/voaru CAPITOLUL PyTorch în producție Acum că știți cum să utilizați PyTorch pentru a clasifica imagini, text și sunet, următorul pas este să vă dați seama cum să implementați PyTorch într-un mediu de producție În acest capitol, vom crea aplicații care declanșează ieșirea pe modelele PyTorch prin HTTP și gRPC Apoi vom împacheta aceste aplicații în containere Docher și le vom implementa într-un cluster Kubernetes pe Google Cloud În a doua parte a capitolului, vom arunca o privire la TorchScript, o nouă tehnologie introdusă în PyTorch care vă permite să utilizați urmărirea JIT pentru a crea modele optimizate care pot fi rulate în C++ Ne vom uita, de asemenea, la modul de comprimare a modelelor prin cuantizare În primul rând, să discutăm despre întreținerea modelului Întreținere model Cele șase capitole anterioare au fost despre construirea de modele în PyTorch, dar construirea unui model este doar o parte a construirii unei aplicații de învățare profundă La urma urmei, un model poate avea o acuratețe uimitoare (sau o altă măsurătoare adecvată), dar dacă nu face nicio predicție, atunci de ce este nevoie de el? Aveți nevoie de o modalitate ușoară de a vă împacheta modelele, astfel încât acestea să poată fi receptive (online sau altfel) și să ruleze cu efort minim Din fericire, Python vă permite să porniți rapid un serviciu web folosind cadrul Flash În această secțiune, vom crea un serviciu simplu care încarcă modelul nostru de pisică sau pește bazat pe ResNet, acceptă solicitări cu o adresă URL a imaginii și returnează un răspuns JSON care indică dacă imaginea este o pisică sau un pește Model Întreținere Ce se întâmplă dacă trimitem unui model o fotografie a unui câine? Modelul va spune că este fie un pește, fie o pisică Ea nu știe nimic mai mult decât opțiunile disponibile și alege întotdeauna una dintre ele Unii cursanți profund adaugă o clasă suplimentară în timpul antrenamentului, Necunoscut și exemple etichetate care nu aparțin niciunei clase Într-o anumită măsură, acest lucru funcționează, dar, în esență, așa încercăm să facem rețeaua neuronală să învețe tot ce nu este o pisică sau un pește, ceea ce este dificil chiar și pentru tine și pentru mine, ca să nu mai vorbim de o serie de matrice calcule! O altă opțiune este să se uite la probabilitatea de ieșire generată de softmax final Dacă predicția modelului este de aproximativ / sau împrăștiată în clase, atunci este logic să luați în considerare utilizarea opțiunii Necunoscut Construirea unui serviciu Flask Să obținem o versiune activată pentru servicii web a modelului nostru Flask este un cadru bine cunoscut pentru crearea de servicii web cu Python, iar în acest capitol îl vom lua ca bază Instalați biblioteca Flask folosind pip sau conda: conda install -cu balon anaconda balon de instalare pip Creați un nou director numit somn și copiați definiția modelului ca model ru din modele de import torchvision Catfishclasses = ["pisica","peste"] CatfishModel = modele ResNet () CatfishModel fc = nn Sequential(nn Linear(transfer model fc in features, ), nn ReLU(), nn Dropout(), nn Linear( , )) Rețineți că nu specificăm un model pre-antrenat aici, deoarece vom încărca greutățile salvate în timpul alergării Capitolul • PyTorch în producție Servere Flask Creați un alt script Python, catfishserver py În el vom porni serviciul web: din flask import Flask, jsonify din import CatfishModel din torchvision import transforms torță de import import os def load model(): model de retur aplicație = Balon( nume ) @app route("/") stare def(): return jsonify({"starea": "ok"}) @app route("/predict", methods=['GET', 'POST']) def predict(): img url = request image url img tensor = open image(BytesIO(response content)) predictie = model(img tensor) predicted class = CatfishClasses[torch argmax(prediction)] return jsonify({"imagine": img url, "predicție": predicted class}) if name == ' main ' : app run(gazdă=os environ["CATFISH HOST"], port=os environ["CATFISH PORT"]) Puteți porni serverul web prin linia de comandă setând variabilele de mediu catfish host și CATFISH PORT: CATFISH HOST= CATFISH PORT= python catfish server ru Dacă îndreptați browserul web către http:// - : , ar trebui să obțineți un răspuns de stare JSON: "ok", așa cum se arată în Figura Voi trata subiectul mai detaliat mai târziu Nu implementați un serviciu Flask direct într-un mediu de producție - un server încorporat nu este bun pentru asta Pentru a face o predicție, găsiți adresa URL a imaginii și trimiteți-o ca cerere GET cu parametrul image url către calea /predict Veți vedea un răspuns JSON care arată adresa URL și clasa prezisă (Figura - ) Model de service • • 'ichyimmi x + L (r) M MLSH Yu - Ѳ y s- ± > O * = voch "m Oa * a N ZhKh Uw Cwr SMvmM іs" h * i V "" tar SO HitlU ir Orez Raspunde OK de la CATFISH Puterea Flask constă în adnotările @app traseu() Datorită acestora, putem atașa funcții obișnuite Python care vor rula atunci când utilizatorul atinge un anumit punct final În metoda predict(), extragem parametrul img url dintr-o solicitare HTTP GET sau POST, deschidem acea adresă URL ca imagine PIL și îl împingem prin conducta simplă de transformare a torchvision pentru a redimensiona și a converti imaginea într-un tensor Obținem un tensor sub forma [ , , ], dar datorită particularităților modelului nostru, trebuie să-l convertim într-un pachet de dimensiunea , adică [ , , , ] Așa că folosim din nou unsqueeze() pentru a extinde tensorul inserând o nouă axă goală în fața dimensiunilor existente Apoi îl puteți alimenta prin model așa cum ați proceda în mod normal, oferindu-vă tensorul previzibil Ca și înainte, folosim torch argmax() pentru a găsi elementul tensor cu cea mai mare valoare și îl folosim pentru a indexa în matricea Cat fishClasses În cele din urmă, returnăm un răspuns JSON cu numele clasei și adresa URL a imaginii pe care am prezis-o Dacă experimentați cu serverul în acest moment, performanța clasificării poate fi dezamăgitoare Nu am petrecut mult timp antrenându-l? Da, așa este, totuși, când am recreat modelul, tocmai am făcut un set de straturi cu inițializare standard PyTorch! Prin urmare, nu este de mirare că totul este atât de trist Să adăugăm load model() la parametrii de încărcare Se returnează doar clasa prezisă, nu setul complet de predicții pentru toate clasele Desigur, tensorul de predicție ar putea fi, de asemenea, returnat, dar rețineți că ieșirea completă a tensorului face mai ușor pentru hackeri să creeze o replică a modelului dvs în detrimentul unei scurgeri de informații suplimentare Capitolul • PyTorch în producție X Orez Prognoza somn Setarea parametrilor modelului În capitolul , am vorbit despre două modalități de a salva un model după antrenament: fie prin scrierea întregului model pe disc folosind torch save(), fie prin salvarea state dict() a tuturor greutăților și prejudecăților modelului (dar nu structura) Pentru un mediu de producție, trebuie să încărcați un model deja antrenat Ce sa aleg? În opinia mea, este mai bine să alegeți state dict Salvarea întregului model este tentantă, dar orice modificare a structurii modelului sau chiar a structurii directorului setului de date de antrenament va fi imediat vizibilă Acest lucru poate duce la probleme cu încărcarea la un serviciu autonom terță parte Când trec la un alt aspect, nu aș vrea să refac totul din nou De asemenea, cel mai bine este să evitați codificarea hard a numelui fișierului salvat de state dicts() pentru a separa actualizările modelului de serviciu Aceasta înseamnă că puteți reporni serviciul cu un model nou sau puteți reveni cu ușurință la un model anterior Trecem numele fișierului ca parametru, dar spre ce ar trebui să indice? Să presupunem că putem seta o variabilă de mediu numită CATFISH MODEL LOCATION și o putem folosi în load model(): def load model(): m = CatfishModel() locație = OS environ["CATFISH MODEL LOCATION"] m load state dict(torch load(locatie)) întoarce m Acum copiați unul dintre fișierele de greutate ale modelului salvate (vezi capitolul ) în director, CATFISH MODEL LOCATION ar trebui să indice acest fișier export CATFISH MODEL LOCATION=catfishweights pt Reporniți serverul și veți vedea că este mult mai precis acum! Model Întreținere Avem un serviciu web minim care funcționează (probabil veți dori o gestionare mai amănunțită a erorilor, dar lăsați-o să fie propria dvs lucrare!) Cum să rulezi un server, de exemplu, în AWS sau Google Cloud? Sau pe laptopul altcuiva? La final, am instalat câteva biblioteci pentru ca totul să funcționeze Puteți folosi Docker pentru a-l împacheta într-un singur container care poate fi instalat în orice mediu Linux (sau Windows, cu noul subsistem Windows pentru Linux) în câteva secunde Construirea unui container Docker În ultimii ani, Docker a devenit standardul pentru aplicațiile de ambalare Docker se află în centrul mediilor moderne de cluster, cum ar fi Kubernetes, este folosit pentru a implementa aplicații (după cum veți afla mai târziu în acest capitol) și are chiar succes în întreprinderi Dacă nu ați întâlnit până acum Docker, iată un scurt context: acest software se bazează pe ideea livrării containerelor Specificați un lot de fișiere (de obicei cu un fișier Docker), Docker le folosește pentru a crea o imagine și apoi rulează acea imagine într-un container, care este un proces izolat pe sistemul dumneavoastră Ea poate vedea numai fișierele și programele specificate pe care dorește să le ruleze Este posibil să partajați un fișier Docker pentru ca alți utilizatori să își poată crea propriile imagini, dar este mai obișnuit să trimiteți imaginea creată la registru, care este o listă de imagini Docker care poate fi descărcată de oricine are acces Aceste registre pot fi publice sau private; Docker Corporation folosește Docker Hub (https://hub docker com/), care este un registru public care conține peste de imagini Docker, dar multe companii au registre private pentru uz intern Mai întâi trebuie să scriem propriul nostru Dockerfile Acest lucru poate părea complicat Ce comandă să îi dau lui Docker să instaleze? Codul nostru? PyTorch? Conda? Piton? Linux în sine? Din fericire, Dockerfiles poate moșteni de la alte imagini, așa că am putea moșteni din imaginea Ubuntu implicită și să instalăm Python, PyTorch și totul de acolo Dar putem face mai bine! Capitolul • PyTorch în producție Imaginile Conda au mai multe opțiuni din care să alegeți, oferindu-vă o instalare de bază Linux, Python și Anaconda pe care o puteți construi Iată un exemplu Dockerfile care poate fi folosit pentru a crea o imagine de container pentru serviciul nostru: DE LA continuumio/miniconda :latest ARG model parameter location ARG model parameter name portul ARG gazda ARG ENV CATFISH PORT=$port ENV CATFISH HOST=$gazdă ENV CATFISH MODEL LOCATION=/app/$nume parametru model RUN conda install -y flask \ &conda install -c pytorch torchvision \ &conda instalează chelnerița RUN mkdir -p /app COPIEAZĂ /model py /app COPIEAZĂ /server py /app COPIEAZĂ $model locație/$model weights name /app/ COPIEAZĂ /run-model-service sh/ EXPOSE $port ENTRYPOINT ["/run-model-service sh"] Să vedem ce se întâmplă aici Prima linie din aproape toate fișierele Docher este FROM, care specifică imaginea Docher de la care moștenește fișierul În acest caz este continuumio/miniconda : latest Prima parte a acestei linii este numele imaginii Imaginile au și versiuni, așa că totul după două puncte este o etichetă care indică ce versiune a imaginii dorim să încărcăm Există, de asemenea, cea mai recentă etichetă magică pe care o folosim pentru a încărca cea mai recentă versiune a imaginii pe care o căutăm Poate doriți să fixați serviciul dvs la o anumită versiune, astfel încât să nu fiți surprins de modificările viitoare ale imaginii de bază, ceea ce ridică o serie de întrebări ARG și ENV lucrează cu variabile ARG specifică o variabilă care este transmisă la Docher atunci când construim imaginea, iar apoi variabila poate fi folosită mai târziu în Docherfile ENV vă permite să specificați variabilele de mediu care vor fi injectate în container în timpul execuției Model de service gona În containerul nostru, folosim ARG pentru a indica faptul că portul este un parametru configurabil, de exemplu, și apoi folosim ENV pentru a ne asigura că configurația este disponibilă pentru scriptul nostru la pornire Apoi RUN și COPY ne oferă capacitatea de a manipula imaginea de la care am moștenit-o RUN rulează comenzile reale pe imagine, iar orice modificări sunt salvate ca un nou strat de imagine deasupra stratului de bază COPY preia ceva din contextul de compilare Docker (de obicei orice fișiere din directorul creat de comanda de construire sau din orice subdirectoare) și îl lipește în punctul de plasare din sistemul de fișiere al imaginii După ce am creat /app cu RUN, folosim apoi COPY pentru a muta codul și parametrii modelului în imagine EXPOSE îi spune lui Docker ce port să deschidă către lumea exterioară În mod implicit, porturile nu sunt deschise, așa că adăugăm unul dintre ele, preluat din comanda ARG În cele din urmă, ENTRYPOINT este o comandă standard care rulează atunci când este creat un container Aici am specificat scenariul, dar nu l-am realizat încă! Să facem asta înainte de a crea imaginea Docker: #!/bin/bash #run-model-service sh cd /app chelneriță-servire caii 'catfish server:create app' Stai, ce este asta? De unde a venit chelnerița? Chestia este că, când am pornit serverul nostru bazat pe Flask înainte de a utiliza un server web simplu, trebuia să fie doar în scopuri de depanare Dacă vrem să punem codul în producție, avem nevoie de un server web de nivel de producție Chelnerița îndeplinește această cerință Nu este nevoie de detalii aici, dar dacă sunteți interesat, puteți consulta documentația Waitress (https://oreil ly/x Ir) Cu toată această configurare, în sfârșit putem construi imaginea folosind docker build: docker build -t somn-service Capitolul • PyTorch în producție Putem verifica dacă imaginea este disponibilă pe sistemul nostru folosind imagini docker: > imagini docker DEPOZIT somn-service TAG cel mai recent ID IMAGINE e de ad b Puteți porni serviciul de predicție a modelului folosind docker run: docker run catfish-service -p : De asemenea, folosim argumentul -p pentru a mapa portul al containerului la portul al mașinii noastre Ar trebui să puteți reveni la http://localhost: /predict așa cum am făcut-o înainte Poate ați observat că atunci când rulați imagini Docker la nivel local, imaginea noastră Docker are o dimensiune de peste GB! Este destul de mult, având în vedere că nu am scris mult cod Să vedem cum să micșorăm această imagine și să o facem mai practic de implementat Stocare locală și în cloud Evident, cel mai simplu răspuns la întrebarea unde să stocați setările modelului salvat este în sistemul de fișiere local, fie pe computer, fie în sistemul de fișiere din containerul Docker Dar nu totul este atât de lin aici În primul rând, modelul este codificat în imagine De asemenea, este posibil ca după ce imaginea este construită și pusă în producție, să avem nevoie să actualizăm modelul Cu Dockerfile actual, trebuie să reconstruim complet imaginea, chiar dacă structura modelului nu s-a schimbat În al doilea rând, cea mai mare parte a dimensiunii imaginilor noastre este determinată de dimensiunea fișierului de opțiuni Poate că nu ați observat că tind să fie destul de mari! Încercați să faceți următoarele: S- total -gee ian ian -gee ian ian -gee ian ian -gee ian ian -gee ian ian februarie februarie septembrie decembrie octombrie resnetl - d b d f pth resnetl -bl ed d pth resnetl - cl cde pth resnet - f ec pth resnet - c e pth Model de service Dacă adăugăm aceste modele la sistemul de fișiere la fiecare construcție, imaginile Docker sunt probabil să fie destul de mari, încetinind procesul de push și pull Vă sugerez să utilizați sisteme de fișiere locale sau containere cu maparea volumului Docker dacă lucrați local, dar dacă implementați în cloud, despre care vorbim, este logic să profitați din plin de el Fișierele cu parametrii de model pot fi încărcate în Azure Blob Storage, Amazon Simple Storage Service (Amazon S ) sau Google Cloud Storage și preluate la pornire Puteți rescrie funcția load model() pentru a încărca fișierul de opțiuni la pornire: din urllib request import urlopen din shutil import copyfileobj din importul fișierului temporar NamedTemporaryFile def load model(): m = CatfishModel() parameter url = os environ["CATFISH MODEL LOCATION"] cu urlopen(url) ca fsrc, NamedTemporaryFile() ca fdst: copyfileobj(fsrc, fdst) m load state dict(torch load(fdst)) întoarce m Desigur, există multe modalități de a încărca fișiere cu Python; Flask vine chiar și cu un modul de solicitări care facilitează descărcarea unui fișier Cu toate acestea, o problemă potențială este că multe soluții încarcă întregul fișier în memorie înainte de a-l scrie pe disc În cele mai multe cazuri, acest lucru are sens, dar atunci când se încarcă fișiere cu parametrii de model, acestea pot intra în intervalul gigaocteți Prin urmare, în noua versiune, folosim urlopen() și copyfileobj() load model() pentru a copia, iar NamedTemporaryFile() pentru a obține alocația, care poate fi eliminată la sfârșitul blocului, deoarece în acest moment am încărcat deja parametrii si fisierul nu mai este necesar Acest lucru simplifică fișierul Docker: Capitolul • PyTorch în producție DE LA continuumio/miniconda :latest portul ARG gazda ARG ENV CATFISH PORT=$port RUN conda install -y flask \ &conda install -c pytorch torch torchvision \ &conda instalează chelnerița RUN mkdir -p /app COPIEAZĂ /model py /app COPIEAZĂ /server py /app COPIEAZĂ /run-model-service sh/ EXPOSE $port ENTRYPOINT ["/run-model-service sh"] Când rulăm codul cu docker run, trecem o variabilă de mediu: docker run catfish-service env CATFISH MODEL LOCATION=[URL] Serviciul preia acum parametrii de la URL, iar imaginea Docker este probabil cu aproximativ - MB mai mică decât cea originală La În acest exemplu, presupunem că fișierul cu parametrii modelului se află într-o locație publică Dacă implementați un model de serviciu, probabil că nu veți experimenta acest lucru, ci în schimb extrageți date dintr-un strat de stocare în cloud, cum ar fi Amazon S , Google Cloud Storage sau Azure Blob Storage Va trebui să utilizați API-ul furnizorului respectiv pentru a descărca fișierul și a obține informații despre cont pentru a-l accesa Nici aici nu le voi descrie în detaliu Deci, avem un model de serviciu care poate comunica prin HTTP cu JSON Acum trebuie să ne asigurăm că o putem controla atunci când își face predicțiile Model Întreținere Înregistrare și telemetrie Un lucru pe care nu îl avem în serviciul actual este orice concept de dopaj Și, deși serviciul este incredibil de simplu și probabil că nu are nevoie de această opțiune (cu excepția cazului în care erorile noastre sunt detectate), ar fi util în cazul în care trebuie să țineți evidența a ceea ce este de fapt prezis La un moment dat, vom dori să evaluăm modelul; cum putem face asta fără date de producție? Să presupunem că avem o metodă send to log() care ia un dict Python și îl trimite într-o altă locație (poate un cluster Apache Kafka care face copii de rezervă în stocarea în cloud) Putem trimite informații relevante folosind această metodă de fiecare dată când facem o predicție: import uuid jurnal de import logging basicConfig(level=logging INFO) def predict(): img url = request image url img tensor = open image(BytesIO(response content)) start time = time process time() predictie = model(img tensor) end time = time process time() predicted class = CatfishClasses[torch argmax(predicție)] send to log( {"image": img url, "predicție": predicted class}, "predict tensor": predicție, "img tensor": img tensor, "predict time": end time-start time, "uuid":uuid uuid () }) return jsonify({"imagine": img url, "predicție": predicted class}) def send to log(linia log): logger info(log line) Cu o putere suplimentară pentru a calcula timpul de predicție, la fiecare solicitare această metodă trimite un mesaj cu informații importante către logger sau resursă externă, cum ar fi adresa URL a imaginii, clasa prezisă, tensorul real de predicție și chiar imaginea completă tensor în cazul în care adresa URL furnizată este temporară Am inclus și universal Capitolul • PyTorch în producție un identificator unic generat (UUID), astfel încât această predicție să poată fi întotdeauna referită mai târziu dacă clasa sa prezisă trebuie corectată Într-o implementare reală, veți include lucruri precum user ids și altele asemenea, astfel încât sistemele din aval să poată oferi utilizatorilor posibilitatea de a indica dacă o predicție a fost corectă sau nu, generând în tăcere mai multe date de antrenament pentru iterații de antrenament ulterioare ale modelului Acum putem implementa containerul în cloud Să aruncăm o privire rapidă la utilizarea Kubernetes pentru a găzdui și a scala un serviciu Implementare pe Kubernetes Nu vom aprofunda prea mult Kubernetes, așa că vom acoperi doar pe scurt elementele de bază, inclusiv cum să punem în funcțiune rapid un serviciu Kubernetes (cunoscut și ca k s) devine rapid cadrul de bază pentru cluster în nor Acest software a fost construit pe baza software-ului de gestionare a clusterelor Borg original de la Google și conține toate elementele și lianții pentru a forma o modalitate tolerantă și fiabilă de a rula un serviciu, inclusiv echilibrarea încărcăturii, cotele de resurse, scalarea, gestionarea traficului, partajarea secretelor și multe altele Puteți descărca și configura Kubernetes pe mașina dvs locală sau într-un cont cloud; Vă sfătuiesc să utilizați un serviciu de găzduire în care Kubernetes însuși este administrat de un furnizor de cloud și trebuie doar să îl gestionați Folosim serviciul Google Kubernetes Engine (GKE) pentru implementare, dar îl puteți implementa și pe Amazon, Azure sau DigitalOcean Cloud Native DevOps cu Kubernetes de John Arundel și Justin Domingus (O'Reilly) vă duce mai adânc în acest concept În rusă: John Arundel, Justin Domingus Kubernetes pentru DevOps: implementați, rulați și scalați în cloud - Sankt Petersburg: Peter, - p (Seria "Bestsellers O'Reilly"), Implementare pe Kubernetes Instalare pe Google Kubernetes Engine Pentru a utiliza GKE, aveți nevoie de un cont Google Cloud (https://cloud google com/) În plus, rularea unui serviciu în GKE nu este gratuită Pe de altă parte, dacă sunteți un nou utilizator Google Cloud, veți primi un credit gratuit de USD Nu vom arde mai mult de un dolar sau doi După ce aveți un cont, descărcați SDK-ul gcloud pentru sistemul dvs (https:// cloud google com/sdk) Odată instalat, îl putem folosi pentru a instala aplicația kubectl Va fi necesar să interacționăm cu clusterul Kubernetes pe care îl vom crea: autentificare gcloud Componentele gcloud instalează kubectl Apoi trebuie să creăm un nou proiect, Google Cloud organizează resursele de calcul din contul dvs astfel: Proiectele gcloud creează ml-k s set-as-default Apoi reconstruim imaginea Docker și o etichetăm astfel încât să poată fi împinsă în registrul intern furnizat de Google (utilizați gcloud pentru autentificare) și apoi putem folosi docker push pentru a împinge imaginea containerului în cloud Rețineți că etichetăm serviciul cu eticheta de versiune "vi", ceea ce nu am mai făcut până acum: docker build -t gcr io/ml-k s/catfish-service:vl gcloud auth contigure-docker docker push ger io/ml-k s/catfish-service:vl Creați un cluster k s Acum putem crea un cluster Kubernetes În următoarea comandă, creăm un cluster cu două noduri ni-standard- , cele mai ieftine și mai economice instanțe Google Dacă economisiți mult, puteți crea un cluster cu un singur nod clusterele de containere gcloud creează ml-cluster num-nodes= Capitolul • PyTorch în producție Pot dura câteva minute până când noul cluster se inițializează complet Odată ce totul este gata, putem folosi kubectl pentru a ne implementa aplicația! kubectl rulează somn-service image=gcg io/ml-k s/catfish-service:vl port env CATFISH MODEL LOCATION=[URL] Rețineți că aici trecem locația fișierului parametru model ca parametru de mediu, la fel cum am făcut cu comanda docker run pe mașina locală Cu kubectl get pods puteți vedea ce pod-uri rulează în cluster Un pod este un grup de unul sau mai multe containere care include o specificație despre cum să le ruleze și să le gestioneze Pentru scopurile noastre, rulăm modelul într-un container într-un singur pod Iată ce ar trebui să vezi: NUME ger io/ml-k s/catfish-service:vl STAREA PREGĂTITĂ REINCEPE VÂRSTA / Running ml s Deci acum putem vedea că aplicația noastră funcționează, dar cum comunicăm cu ea? Pentru a face acest lucru, trebuie să implementăm un serviciu, în acest caz un echilibrator de încărcare, care mapează o adresă IP externă la clusterul nostru intern: kubectl expune implementarea somn-service type=LoadBalancer portul target-port Puteți apoi să vă uitați la serviciile care rulează folosind kubectl get services pentru a obține IP-ul extern: kubectl obține servicii NUME CLUSTER-IP EXTERN-IP PORT(E) Vârsta somn-service : /TCP d Acum ar trebui să puteți naviga la http://external-ip/predict pe mașina dvs locală Ura! Putem verifica, de asemenea, jurnalele de pod nedopate: kubectl înregistrează somn-service-xxdsd >> jurnal de răspuns Implementare pe Kubernetes Acum avem o implementare funcțională pe un cluster Kubernetes Să aruncăm o privire la câteva dintre posibilitățile pe care le oferă Servicii de scară Să presupunem că decidem că un singur pod nu este suficient pentru a gestiona tot traficul care vine în serviciul de predicție Într-o implementare tradițională, ar trebui să introduceți noi servere, să le adăugați la echilibratoarele de încărcare și să decideți ce să faceți dacă unul dintre servere eșuează Dar Kubernetes face lucrurile mult mai ușoare Să ne asigurăm că toate cele trei copii ale serviciului rulează: implementare la scară kubectl hello-web replicas= Dacă continuați să vă uitați la kubectl get pods, veți vedea în curând că Kubernetes scoate încă două pod-uri din imaginea Docker și le atașează la echilibrul de încărcare Să vedem ce se întâmplă dacă ștergem unul dintre pod-uri: kubectl șterge podul [PODNAME] kubectl obține păstăi Veți vedea că podul specificat a fost eliminat Dar, pe lângă aceasta, a apărut și un nou pod de înlocuire! I-am spus lui Kubernetes să ruleze trei copii ale imaginii și, deoarece am eliminat una, clusterul pornește un nou pod pentru a se asigura că numărul de replici este cel solicitat Același lucru este valabil și pentru actualizarea aplicației, așa că haideți să aruncăm o privire și la asta Actualizări și curățare Când vine vorba de actualizarea codului de serviciu, o nouă versiune a containerului este creată cu eticheta v : docker build -t gcr io/ml-k s/catfish-service:v docker push ger io/ml-k s/catfish-service:v Apoi, clusterul este instruit să folosească noua imagine pentru implementare: Capitolul • PyTorch în producție kubectl set de desfășurare a imaginii/serviciu somn catfish-service=gcr io/ml-k s/catfish-service: v Continuați să urmăriți prin kubectl get pods și veți vedea că noi pod-uri cu imagini noi sunt implementate și pod-urile cu imagini vechi sunt eliminate Kubernetes se va ocupa automat de conexiuni și va elimina containerele vechi din echilibrator de încărcare În cele din urmă, dacă ați terminat cu experimentele cu cluster, ar trebui să curățați mizeria pentru a evita surprize suplimentare neașteptate: serviciul de ștergere kubectl catfish-service clusterele de containere gcloud șterg ml-k s Aceasta încheie mini-turul nostru Kubernetes; acum aveți suficiente informații cu care să lucrați, vă recomand cu siguranță să vizitați site-ul Kubernetes pentru mai multe informații despre sistem (și credeți-mă, sunt multe!) Am analizat modalități în care puteți implementa codul bazat pe Python, dar, în mod surprinzător, PyTorch nu se limitează doar la Python În secțiunea următoare, veți vedea cum TorchScript ne expune lumea mai largă a C++, precum și câteva optimizări pentru modelele noastre obișnuite Python TorchScript Dacă vă amintiți din introducere (știu, a fost cu mult timp în urmă!), principala diferență dintre PyTorch și TensorFlow este că TensorFlow are o reprezentare a modelului bazată pe grafic, în timp ce PyTorch implementează o metodă de diferențiere automată pe bandă Metoda "energetică" vă permite să aplicați tot felul de abordări dinamice pentru definirea și antrenamentul modelelor, ceea ce face ca PyTorch să fie atractiv în scopuri de cercetare Pe de altă parte, o reprezentare bazată pe grafic poate fi statică, dar este alimentată de stabilitate; puteți aplica optimizarea unei reprezentări grafice numai dacă sunteți sigur că nimic nu se va schimba TorchScript Și la fel cum TensorFlow a trecut la execuția viguroasă în versiunea , versiunea a PyTorch a introdus TorchScript, care ne permite să profităm de sistemele bazate pe grafice fără a abandona complet flexibilitatea PyTorch Există două moduri de a face acest lucru, care pot fi combinate: urmărirea și utilizarea directă a TorchScript trasarea PyTorch vine cu un motor de urmărire JIT care transformă un modul sau o funcție PyTorch existentă într-una pentru TorchScript Trece un exemplu de tensor printr-un modul și returnează rezultatul unui ScriptModule care conține o reprezentare a codului sursă TorchScript Să aruncăm o privire la urma AlexNet: model = torchvision models AlexNet() traced model = torch jit trace(model, torch rand(l, , , )) Acum totul va funcționa, dar veți primi un mesaj de la interpretul Python care vă va forța să faceți pauză: TracerWarning: Trace avea noduri nedeterministe Noduri: %input l : Float(l, ) = aten::dropout(%input l , % , % ), domeniu: AlexNet/Sequential[clasifier]/Dropout[ ] %input l : Float(l, ) = aten::dropout(%input l , % , % ), domeniu: AlexNet/Sequential[clasifier]/Dropout[ ] Acest lucru poate cauza erori în verificarea urmărilor Pentru a dezactiva verificarea urmelor, treceți check trace=False la torch jit trace() check trace([example inputs], func, executor options, module, check tolerance, force outplace) /home/ian/anaconda /lib/ python /site-packages/torch/jit/ init py: : TracerWarning: Ieșirea nr a funcției urmărite nu se potrivește cu ieșirea corespunzătoare a funcției Python eroare detaliata: Nu este în limitele tolerantei rtol=le- atol=le- la intrare[ , ] ( , vs - , ) și alte de locații ( , %) check trace([example inputs], func, executor options, module, check tolerance force outplace) Capitolul • PyTorch în producție Ce se petrece aici? Când creăm un AlexNet (sau alte modele), acesta este creat în modul de învățare În timpul antrenamentului în multe modele, cum ar fi AlexNet, folosim un strat Dropout care ucide aleatoriu activările pe măsură ce tensorul trece prin rețea JIT trimite de două ori tensorul aleator pe care l-am generat cu modelul, le compară și notează că straturile Dropout nu se potrivesc Prin urmare, trebuie să fiți atenți când urmăriți; nu poate gestiona nerepetitivitatea sau fluxul comenzilor de control Dacă modelul dvs utilizează aceste caracteristici, va trebui să utilizați direct TorchScript, cel puțin pentru partea de conversie Cu toate acestea, în cazul AlexNet, remedierea acestui lucru este simplă: folosirea modelului eval() vom trece modelul în modul de evaluare Dacă rulați din nou linia de urmărire, veți constata că se finalizează normal De asemenea, putem seta prinț() pe modelul urmărit pentru a vedea în ce constă: print(model urm) TracedModule[AlexNet]( (caracteristici): TracedModule[Sequential]( ( ): TracedModule[Conv d]() ( ): TracedModule[ReLU]() ( ): TracedModule[MaxPool d]() ( ): TracedModule[Conv d]() ( ): TracedModule[ReLU]() ( ): TracedModule[MaxPool d]() ( ): TracedModule[Conv d]() ( ): TracedModule[ReLU]() ( ): TracedModule[Conv d]() ( ): TracedModule[ReLU]() ( ): TracedModule[Conv d]() ( ): TracedModule[ReLU]() ( ): TracedModule[MaxPool d]() ) (clasificator): TracedModule[Sequential]( ( ): TracedModule[Dropout]() ( ): TracedModule[Linear]() ( ): TracedModule[ReLU]() ( ): TracedModule[Dropout]() ( ): TracedModule[Linear]() ( ): TracedModule[ReLU]() ( ): TracedModule[Liniar]() ) ) TorchScript Putem vedea și codul generat de JIT dacă numim prinț (model trasat, cod): def înainte (auto, input l: Tensor) -> Tensor: input = torch convolution(input l, getattr(self features, " ") weight, getattr(self features, " ") bias, [ , ], [ , ], [ , ], Fals, [ , ], , False, False, True) input = torch threshold (input , , ) input , = torch max pool d with indexes (input , [ , ], [ , ], [ , ], [ , ], False) input = torch convolution(input , getattr (seif features, " ") weight, getattr(self features, " ") bias, [ , ], [ , ], [ , ], Fals, [ , ], , False, False, True) input = torch threshold (input , , ) input , = torch max pool d with indexes (input , [ , ], [ , ], [ , ], [ , ], False) input = torch convolution(input , getattr(self features, " ") weight, getattr (seif features, " ") bias, [ , ], [ , ], [ , ], fals, [ , ], , fals, fals, adevărat) input = torch threshold (input , , ) input = torch convolution(input , getattr (seif features, " ") weight, getattr(self features, " ") bias, [ , ], [ , ], [ , ], fals, [ , ], , fals, fals, adevărat) input ll = torch threshold (input , , ) input = torch convolution(input ll, getattr (seif features, " ") weight, getattr(self features, " ") bias, [ , ], [ , ], [ , ], fals, [ , ], , fals, fals, adevărat) input = torch threshold (input , , ) x, = torch max pool d with indexes (input , [ , ], [ , ], [ , ], [ , ], False) = ops prim NumToTensor(torch size(x, )) input = torch view(x, [int( ), ]) input = torch dropout(input , , False) = torch t(getattr(self classifier, " ") weight) input = torch addmm(getattr(self classifier, "l") bias, input , , beta=l, alfa=l) input = torch threshold (input , , ) input = torch dropout(input , , , False) = torch t(getattr(self classifier, " ") weight) input = torch addmm(getattr(self classifier, " ") bias, input , , beta=l, alfa=l) intrare = torch threshold (input , , ) = torch t(getattr(self classifier, " ") weight) = torch addmm(getattr(self classifier, " ") bias, input, , beta=l, alfa=l) întoarcere Capitolul • PyTorch în producție Modelul (codul și parametrii) poate fi apoi salvat folosind lanterna jit Salvați: torch jit save(traced model, "traced model") Așa funcționează urmărirea Să vedem acum cum să folosim TorchScript Executarea scripturilor S-ar putea să vă întrebați de ce nu puteți urmări totul Deși trasorul își face bine treaba, are limitări De exemplu, nu este posibil să urmăriți o funcție atât de simplă într-o singură trecere: torță de import exemplu def (x, y): dacă x min() > y min(): r=x altceva: r = y întoarce r O urmă printr-o funcție ne va duce pe o cale, adică funcția nu va fi convertită corect În aceste cazuri, putem folosi TorchScript, care este un subset limitat de Python, și putem genera cod compilat Folosim o adnotare pentru a-i spune lui PyTorch să folosească TorchScript, astfel încât implementarea TorchScript ar arăta astfel: (Ștorch jit script def exemplu(x, y): dacă x min() > y min(): r=x altceva: r = y întoarce r Din fericire, în această funcție nu folosim constructe care lipsesc din TorchScript și nu ne referim la nicio stare globală, așa că totul va funcționa Dacă am creat un nou TorchScript hitektura, ar fi necesar să se moștenească de la torță jit ScriptModule în loc de nn Module Dar cum puteți folosi alte module (de exemplu, straturi bazate pe CNN) dacă toate modulele trebuie să moștenească de la o altă clasă? Există o diferență, nu-i așa? Ideea este că putem amesteca și potrivi atât folosind TorchScript, cât și obiecte urmăribile după bunul plac Să ne întoarcem la structura noastră CNNNet/AlexNet din Capitolul și să vedem cum o putem converti în TorchScript folosind o combinație a acestor metode Pentru concizie, implementăm doar componenta funcție: clasa FeaturesCNNNet(torch jit ScriptModule): def init (seif, num classes= ): super(FeaturesCNNNet, seif) init () seif features = torch jit trace(nn Sequential( nn Conv d( , , kernel size=ll, stride= , padding= ), nn ReLU(), nn MaxPool d(kernel size= , stride = ), nn Conv d( , , kernel size= , padding= ), nn ReLU(), nn MaxPool d(kernel size= , stride= ), nn Conv d( , , kernel size= , padding=l), nn ReLU(), nn Conv d( , , kernel size= , padding=l), nn ReLU(), nn Conv d( , , kernel size= , padding=l), nn ReLU(), nn MaxPool d(kernel size= , stride= ) ), torch rand(l, , , )) (Ștorch jit script method def înainte(self, x): x = seif caracteristici(x) întoarce x Să notăm două lucruri În primul rând, în cadrul claselor, adnotăm cu @torch jit script method În al doilea rând, deși este posibil să urmărim fiecare strat individual, am folosit învelișul nn Sequential pentru a începe trasarea Încercați să implementați singur blocul de clasificare pentru a vedea cum funcționează Amintiți-vă că, în loc de antrenament, trebuie să comutați straturile Dropout în modul eval(), iar tensorul de urmărire de intrare ar trebui să fie de forma [ , , , ], din cauza eșantionării pe care o efectuează blocul de caracteristici Și da, puteți salva această rețea cu lanternă jit salvați, așa cum am făcut pentru modulul de urmărire Să aruncăm o privire la caracteristicile și limitările TorchScript Capitolul • PyTorch în producție Limitările TorchScript În comparație cu Python, cea mai mare limitare din TorchScript, cel puțin în opinia mea, este numărul mic de tipuri disponibile În tabel arată tipurile disponibile și indisponibile Tabelul Tipuri Python disponibile în TorchScript Descriere tip tensor Un tensor PyTorch de orice tip, dimensiune sau backend tuplu[T j TI, ] Tuplu care conține subtipuri TO, T etc (de exemplu, tupleftensor, tensor]) boolean str String int float float lista Lista de tipuriT opțional[T] Fie Niciunul sau tipT dict[Kj V] dict cu chei de tip K și valori de tip V; K poate fi doar str, int sau float O altă opțiune pe care nu o puteți face în Python standard este o funcție care amestecă tipuri de returnare Următoarele nu sunt permise în TorchScript: def maybe a string or int(x): dacă x > : returnează "mai mare decât !" altfel întoarcere Desigur, nici aceasta nu este o idee bună în Python, dar verificarea dinamică a tipului a limbajului o va face posibilă TorchScript este tastat static (ceea ce ajută la aplicarea optimizărilor), deci nu va funcționa în codul TorchScript adnotat De asemenea, TorchScript presupune că fiecare parametru transmis unei funcții este un tensor, ceea ce poate fi puțin confuz dacă nu înțelegeți ce se întâmplă: TorchScript (Ștorch jit script def add int(x,y): returnează x + y prinț(add int code) >> def înainte (auto, x:Tensor, y: Tensor) -> Tensor: return torch add(x, y, alpha=l) Pentru a utiliza diferite tipuri, sunt necesari decoratori de tip Python : (Ștorch jit script def add int(x: int, y: int) -> int: returnează x + y prinț(add int code) >> def înainte (auto, x: int y: int) -> int: return torch add(x, y) După cum puteți vedea, clasele sunt acceptate, dar există câteva erori Toate metodele din clasă trebuie să respecte TorchScript, dar, deși acest cod pare corect, nu va funcționa: (Ștorch jit script clasa BadClass: def init (seif, x) sine x = x def set y(y) seif y = y Aceasta este o consecință a tastării statice a lui TorchScript Toate variabilele de instanță trebuie declarate în timpul init și nu pot fi pre- plasat în altă parte Da, și nici nu vă gândiți să includeți în clasă expresii care nu sunt în metodă - sunt interzise în TorchScript O caracteristică plăcută a TorchScript, care este un subset al lui Python, este că traducerea poate fi făcută fragmentar, iar codul intermediar este încă valabil și executat în Python Codul compatibil cu TorchScript poate duce la cod incompatibil și, deși nu veți putea torch jit save() atâta timp cât nu convertiți tot codul incompatibil, puteți încă rula totul în Python Capitolul • PyTorch în producție Puteți afla mai multe în documentația PyTorch (https://oreil ly/sS o ) care intră în detalii foarte detaliate despre lucruri precum definirea domeniului (în mare parte reguli standard Python), dar informațiile din această carte sunt suficiente pentru transformările tuturor modelelor descrise de mine Nu vă voi trimite la diferite surse, dar vă voi sugera să luați în considerare implementarea unuia dintre modelele TorchScript în C++ Lucrul cu libTorch Pe lângă TorchScript, PyTorch a introdus libTorch, o bibliotecă în limbaj C++ pentru interacțiunea cu PyTorch Sunt disponibile diferite niveluri de interoperabilitate C++ Nivelurile inferioare sunt ATep și autograd, implementarea tensorului și diferențierea automată în C++, pe care este construit RuTorch însuși În plus, există o interfață de utilizator C++ care dublează API-ul C++ Python al lui PyTorch, o interfață pentru TorchScript și, în sfârșit, o interfață de extensie care vă permite să definiți noi operatori personalizați C++/CUDA și să implementați PyTorch în Python În această carte, acoperim doar interfața de utilizator C++ și interfața TorchScript; consultați documentația PyTorch pentru mai multe informații Să începem cu libTorch Obține libTorch și Hello World Avem nevoie de un compilator C++ și de o modalitate de a construi programe C++ pe un computer Aceasta este una dintre puținele părți ale cărții în care Google Colab nu se potrivește; poate fi necesar să creați o VM pe Google Cloud, AWS sau Azure dacă nu aveți acces ușor la o fereastră de terminal (Pariez că toți cei care mi-au ignorat sfatul de a nu construi o mașină dedicată sunt incredibil de mândri de ei înșiși acum!) libTorch va necesita un compilator C++ și CMake, așa că haideți să le instalăm Pe un sistem bazat pe Debian, utilizați această comandă: apt install cmake g++ Dacă aveți un sistem bazat pe Red Hat, utilizați această comandă: yum instalează cmake g++ Lucrul cu libTorch Apoi, trebuie să descărcați biblioteca libTorch Pentru a simplifica procesul, vom folosi distribuția libTorch bazată pe CPU, în loc să lucrăm cu dependențele CUDA suplimentare pe care le oferă distribuția bazată pe GPU Creați un director torchscript export și obțineți distribuția: wget https://download pytorch org/libtorch/cpu/ libtorch-shared-with-deps-latest zip Utilizați unzip pentru a despacheta fișierul ZIP (va apărea un nou director Iibtorch) și creați un director heiloworld Aici adăugăm CMakeL ists txt minim pe care CMake îl va folosi pentru a compila programul executabil: cmake minimum required(VERSIUNEA FATAL ERROR) proiect(helloworld) find package(Torță NECESARĂ) add executable(helloworld helloworld cpp) target link libraries(heiloworld "${TORCH LIBRARIES}") set property(TARGET helloword PROPERTY CXX STANDARD ) Și apoi helloworld cpp arată astfel: ttinclude ttinclude int main() { torch::Tensor tensor = torch::one({ , }); std::cout ttinclude ttinclude int main(int argc, const char* argv[]) { std::shared ptr module = torch::jit::load("cnnnet"); assert(modulul = nullptr); std::cout intrări; inputs push back(torch::rand({l, , , })); at::Tensor output = module->forward(inputs) toTensor(); std::cout Discriminator > Generator Orez Cum funcționează GAN-urile Vezi Generative Adversarial Networks, Ian J Goodfellow et al ( ) (https://arxiv org/abs/ ) Capitolul • PyTorch în practică Antrenament GAN Antrenarea GAN-urilor este puțin mai dificilă decât formarea rețelelor tradiționale Pentru a începe antrenamentul discriminatorului, bucla de antrenament trebuie mai întâi să folosească date reale Calculăm pierderea discriminatorului (folosind ALL deoarece avem doar două clase: real sau fals) și apoi facem o trecere înapoi pentru a actualiza parametrii discriminatorului Dar de data aceasta nu apelăm la optimizator pentru a actualiza În schimb, generăm un pachet de date din generatorul nostru și îl trecem prin model Calculăm pierderea și facem o altă trecere înapoi, astfel încât în acest moment bucla de antrenament să fi calculat pierderea a două treceri prin model Acum apelăm optimizatorul să actualizeze pe baza acestor gradienți acumulați În a doua parte a antrenamentului, trecem la generator Oferim generatorului acces la discriminator și apoi generăm un nou lot de date (pe care generatorul pretinde că sunt reale) și testăm împotriva discriminatorului Formăm o funcție de pierdere din această ieșire, în care fiecare punct de date pe care discriminatorul îl consideră fals este considerat un răspuns greșit - pentru că încercăm să-l păcălim - și apoi efectuăm o trecere/optimizare standard Iată o implementare generică în PyTorch Rețineți că generatorul și discriminatorul sunt rețele neuronale standard normale, astfel încât, teoretic, ar putea genera imagini, text, audio sau orice alt tip de date și aparține oricăruia dintre tipurile de rețele pe care le-ați văzut deja: generator = Generator() discriminator = Discriminator() # Configurați optimizatori separati pentru fiecare rețea generator optimizer = discriminator optimizer = def gan train(): pentru epocă în num epochs: pentru lot în real train loader: discriminator train() generator eval() discriminator zero grad() Upgrade computer! preds = discriminator(lot) real loss = criteriu(preds, torch ones like(preds)) discriminator backward() fake batch = generator(torch rand(batch shape)) fake preds = discriminator(fake batch) fake loss = criteriu(fake preds, torch zeros like(fake preds)) discriminator backward() discriminator optimizer step() discriminator eval() generator train() generator zero grad() forged batch = generator(torch rand(batch shape)) forged preds = discriminator(forged batch) forged loss = criteriu(forged preds, torch ones like(forged preds)) generator backward() generator optimizer step() Rețineți că flexibilitatea lui PyTorch ajută foarte mult aici În absența unui ciclu de învățare dedicat, care este practic pentru o învățare mai standard, suntem obișnuiți să creăm un nou ciclu și să cunoaștem toți pașii pe care trebuie să îi includem În alte cadre, instruirea GAN pare să fie mai mult o bătaie de cap Și acest lucru este important, deoarece instruirea GAN este o sarcină destul de dificilă în sine și fără cadre care îi stau în cale Colapsul modului de distribuție Într-o lume ideală, ceea ce se întâmplă în timpul antrenamentului este că discriminatorul va fi inițial bun la detectarea datelor false, deoarece este antrenat pe date reale, în timp ce generatorului i se oferă acces doar la discriminator și nu la datele reale în sine În cele din urmă, generatorul va învăța să păcălească discriminatorul și apoi să-și îmbunătățească performanța pentru a se potrivi cu distribuția datelor și va crea în mod repetat date false care scapă de critic Dar ceva se pune în calea multor arhitecturi GAN; este un colaps de mod Dacă datele noastre reale au trei tipuri, atunci poate generatorul va începe să genereze primul tip și poate învăța să o facă destul de bine Discriminatorul poate decide că Capitolul • PyTorch în practică tot ceea ce arată ca primul tip este de fapt fals, chiar și exemplul real în sine, iar apoi generatorul începe să genereze ceva similar cu al treilea tip Discriminatorul începe să respingă toate eșantioanele de al treilea tip, iar generatorul selectează din exemple reale pentru generare Ciclul continuă la nesfârșit; generatorul nu reușește niciodată să genereze mostre din întreaga distribuție Reducerea colapsului modului de distribuție este o problemă cheie de performanță cu GAN-urile și este un subiect de cercetare în curs Unele abordări includ adăugarea unui scor de similaritate la datele generate, astfel încât potențialul colaps să poată fi detectat și prevenit Pentru a face acest lucru, se păstrează un buffer de redare a imaginilor generate, astfel încât discriminatorul să nu se reantreneze pe cel mai recent lot de imagini generate, permițând adăugarea etichetelor reale din setul de date real în rețeaua generatorului etc Încheiem această secțiune cu o aplicație GAN care realizează rezoluție superfină ESRGAN ESRGAN (Enhanced Super-Resolution Generative Adversarial Network) este o rețea dezvoltată în , care oferă rezultate impresionante de super-rezoluție Generatorul este o serie de blocuri de rețele convoluționale cu o combinație de straturi reziduale și dense (un amestec de ambele ResNet și DenseNet) conectate la straturi Batch Norm care au fost eliminate pe măsură ce creează artefacte în imaginile supraeșantionate În ceea ce privește discriminatorul, în loc să dea doar un rezultat despre dacă imaginea este reală sau falsă, acesta prezice probabilitatea ca imaginea reală să fie relativ mai realistă decât cea falsă, iar acest lucru ajută la ca modelul să producă rezultate mai concise Lansarea ESRGAN Pentru a vedea ESRGAN în acțiune, descărcați codul din depozitul GitHub (https://github com/xinntao/ESRGAN) ESRGAN Folosește git: git clone https://github com/xinntao/ESRGAN Următorul pas este să încărcați greutățile pentru a utiliza modelul fără antrenament Folosind linkul Google Drive din fișierul README, descărcați fișierul RRDB ESRGAN x pth și plasați-l în /models Să încercăm să creștem rezoluția imaginii reduse a Helvetica noastră din casetă, dar puteți pune orice altă imagine în directorul /LR Rulați scriptul test py și veți vedea că imaginile sunt generate și stocate în directorul de rezultate Acesta este sfârșitul rezoluției ultra-înalte, dar încă nu am terminat cu imaginile Noi aventuri în Pattern Recognition Clasificările imaginilor din capitolele - au avut un lucru în comun: am stabilit că o imagine aparține unei clase, o pisică sau un pește Și este evident că în aplicațiile reale vor fi mult mai multe clase Dar presupunem și că pozele ar putea fi și o pisică cu un pește (ceea ce ar putea fi o veste proastă pentru un pește) sau oricare dintre clasele pe care le căutăm Imaginile pot arăta două persoane în scenă, o mașină și o barcă, și trebuie să determinați nu numai dacă aceste obiecte sunt în imagine, ci și unde se află Există două metode principale: detectarea obiectelor și segmentarea Ne vom uita la ambele și apoi vom folosi exemple specifice pentru a afla cum Facebook a implementat Faster R-CNN și Mask R-CNN folosind PyTorch Detectarea obiectelor Să ne uităm la pisica din cutie Necesită rețeaua pentru a pune pisica în cutie într-o altă cutie! Mai exact, dorim o casetă de delimitare care se întinde pe întreaga imagine despre care modelul o consideră o pisică (Figura ) Capitolul • PyTorch în practică Orez Pisica într-o cutie într-o cutie de delimitare Dar cum să facem rețelele noastre să rezolve această problemă? Amintiți-vă că rețelele neuronale pot prezice orice doriți de la ele Ce se întâmplă dacă, împreună cu prognoza noastră de clasă, vom crea încă patru ieșiri? În modelul CATFISH, am avea un strat Linear cu o dimensiune de ieșire de în loc de Cele patru ieșiri suplimentare ar defini un dreptunghi folosind coordonatele dy, d , y{, z/ În loc să furnizăm doar imagini ca date de antrenament, va trebui să le creștem cu casete de delimitare, lăsând modelul să învețe ceva Funcția de pierdere va fi acum pierderea combinată a pierderii de entropie încrucișate de predicție de clasă și pierderea rms pentru casetele de delimitare Fara magie! Pur și simplu proiectăm un model care ne va oferi ceea ce avem nevoie, introducem date care conțin suficiente informații pentru a face predicții și a antrena și include o funcție de pierdere care spune rețelei noastre cât de bine sau de prost merge O alternativă la casetele de delimitare este segmentarea În schimb, rețeaua noastră scoate o mască de imagine cu aceeași dimensiune de intrare; pixelii din masca sunt colorati in functie de clasa in care se incadreaza De exemplu, iarba poate fi verde, drumurile pot fi violete, mașinile pot fi roșii și așa mai departe Ai perfecta dreptate daca crezi ca la randarea unei imagini vom folosi acelasi tip de arhitectura ca in sectiunea despre Noi aventuri în Pattern Recognition rezoluție super înaltă Cele două metode au multe în comun și un tip de model care a devenit popular în ultimii ani este arhitectura U-Net prezentată în Figura După cum puteți vedea, arhitectura U-Net clasică este un set de blocuri de convoluție care reduc imaginea și un alt set de convoluții care o scala înapoi până la imaginea țintă Cu toate acestea, cheia U-Net sunt liniile care merg de la blocurile din stânga la omologii lor din dreapta, care se conectează la tensorii de ieșire atunci când sunt scalate înapoi la dimensiunea potrivită Aceste conexiuni permit transmiterea informațiilor de la blocuri convoluționale de nivel superior, păstrând în același timp detalii care pot fi eliminate pe măsură ce blocurile convoluționale reduc imaginea de intrare Veți vedea arhitecturi bazate pe U-Net în toate competițiile de sharding Kaggle, ceea ce demonstrează într-un fel că acest cadru este bun pentru sharding O altă metodă este vechiul nostru prieten, transferul de învățare În această abordare, prima parte U este preluată dintr-un model pre-antrenat, cum ar fi ResNet sau Inception, iar cealaltă parte U și conexiunile ignorate sunt adăugate în partea de sus a rețelei antrenate și reglate în mod normal Orez Arhitectură U-Net simplificată A se vedea U-Net: Convolutional Networks for Biomedical Image Segmentation, Olaf Ronneberger et al ( ) (https://arxiv org/abs/ ) Capitolul • PyTorch în practică Să aruncăm o privire la câteva modele pre-antrenate existente care oferă detectarea și segmentarea obiectelor de ultimă generație direct de pe Facebook R-CNN mai rapid și Mask R-CNN Facebook Research a lansat biblioteca maskrcnn-benchmark, care conține implementări de referință atât ale algoritmilor de detectare a obiectelor, cât și ale algoritmilor de segmentare Să instalăm biblioteca și să adăugăm codul pentru a genera predicții La momentul scrierii acestui articol, cea mai simplă modalitate de a construi modele era utilizarea Docker (acest lucru se poate schimba odată cu lansarea PyTorch ) Copiați depozitul de pe https://github com/facebook research/maskrcnn-benchmark și adăugați scriptul predict py în directorul demonstrativ pentru a configura o conductă de predicție folosind coloana vertebrală ResNet- : import matplotlib pyplot ca plt din PIL import Image import numpy as np import sys din maskrcnn benchmark config import cfg din importul de predictor COCODemo config file = " /configs/caffe /e e faster rcnn R FPN lx caffe yaml" cfg merge from file(config file) cfg merge from list(["MODEL DEVICE", "cpu"]) coco demo = COCODemo( cfg, min image size= , confide threshold= , , ) pil image = Image open(sys argv[l]) imagine = np array(pil image)[:, :, [ , , ]] predictions = coco demo run on opencv image(image) predictions = predictions[- ] plt imsave(sys argv[ ], predicții) Noi aventuri în Pattern Recognition În acest scurt script, mai întâi trebuie să configurați predictorul COCODemo Este important să vă asigurați că este trecută o configurație care setează R-CNN mai rapid și nu Masca R-CNN (produce ieșire segmentată) Apoi, trebuie să deschidem fișierul imagine specificat pe linia de comandă, dar înainte de asta îl convertim în format BGR în loc de format RGB, deoarece predictorul este antrenat pe imaginile OppCV și nu pe imaginile PIL pe care le-am folosit înainte În cele din urmă, folosim imsave pentru a scrie matricea de predicții (imaginea originală plus caseta de delimitare) într-un fișier nou, specificat și pe linia de comandă Copiați fișierul imagine de test în directorul demo pentru a crea o imagine Docker: docker build docker/ Rulem scriptul dintr-un container Docker și generăm rezultate ca în fig (de fapt am folosit o bibliotecă pentru a genera această imagine) Încercați să experimentați cu diferite valori de confidence threshold și diferite imagini De asemenea, puteți trece la configurația e e mask rcnn R FPN lx caffe yaml pentru a testa masca R-CNN și a genera măști de segmentare Pentru a antrena date personalizate pe modele, va trebui să furnizați un set de date personalizat care să ofere etichete cu casete de delimitare pentru fiecare imagine Biblioteca oferă o funcție de ajutor, BoxList Iată o implementare schelet a unui set de date pe care o puteți folosi pentru a începe: din maskrcnn benchmark structures bounding box import BoxList clasa MyDataset(obiect): def init (seif, path, transforms=None): self images = # setează o listă de imagini self boxes = # citește în casete seif labels = # citește în etichete def getitem (seif, idx): imagine = # Obțineți imaginea PIL de la self images casete = # Creați o listă de tablouri, câte una pentru fiecare casetă în format xi, yi, x , y etichete = # Etichete care corespund casetelor boxlist = BoxList(boxes, image size, mode="xyxy") boxlist add field("labels", labels) Capitolul • PyTorch în practică dacă seif transformă: imagine, boxlist = seif transforms(imagine, boxlist) imagine de retur, lista de casete, idx def get img info(self, idx): returnează {"înălțime": img height, "width": img width Va trebui apoi să adăugați setul de date nou creat la maskrcnn benchmark/data/datasets/init py și maskrcnn benchmark/config/paths catalog ru Instruirea se poate face folosind scriptul train net py atașat în depozit Rețineți că poate fi necesar să reduceți dimensiunea lotului pentru a antrena oricare dintre aceste rețele pe un singur GPU Aceasta încheie secțiunea despre detectarea și segmentarea obiectelor Aflați mai multe în secțiunea "Resurse suplimentare", inclusiv informații despre arhitectura minunată a "You Only Look Once (YOLO)" Între timp, să vedem cum să dezactivăm în mod intenționat modelul Mostre de concurs Este posibil să fi citit deja articole despre imagini care pot interfera cumva cu recunoașterea normală a imaginii Dacă o persoană ține imaginea lângă cameră, rețeaua neuronală crede că vede un panda sau ceva de genul ăsta Astfel de imagini complicate sunt cunoscute sub numele de mostre adverse și sunt modalități interesante de a descoperi limitările arhitecturii tale Crearea de mostre adverse nu este atât de dificilă, mai ales dacă aveți acces la model Iată o rețea neuronală simplă care clasifică imaginile din setul de date comun CIFAR- Nu este nimic special la acest model, așa că îl puteți înlocui în siguranță cu AlexNet, ResNet sau orice altă rețea descrisă în carte: clasa ModelToBreak(nn Module): def init (seif): super(ModelToBreak, seif) init () seif convl = nn Conv d( , , ) self pool = nn MaxPool d( , ) self conv = nn Conv d( , , ) Mostre de concurs seif fel = nn Linear( * * , ) self fc = nn Linear( , ) self fc = nn Liniar( , ) def înainte(self, x): x = seif pool(F relu(seif convl(x))) x = seif pool(F relu(seif conv (x))) x = x vedere(-l, * * ) x = F relu(self fcl(x)) x = F relu(self fc (x)) x = sine fc (x) întoarce x După ce am antrenat rețeaua pe CIFAR- , putem obține o predicție pentru imaginea din Fig Sper că antrenamentul a decurs suficient de bine și rețeaua a fost capabilă să recunoască broasca (dacă nu, atunci durează puțin mai mult) Acum să schimbăm imaginea broaștei, astfel încât rețeaua neuronală să se încurce și să creadă că este altceva, deși știm totuși că este o broască Pentru a face acest lucru, folosim metoda Fast gradient sign attack Ideea este să luăm imaginea pe care dorim să o clasificam greșit și să o rulăm prin model ca de obicei, ceea ce ne oferă un tensor de ieșire De obicei, pentru predicții, ne uităm la care dintre valorile tensorului a fost cea mai mare și o aplicăm ca index la clasele noastre folosind argmaxQ Dar de data aceasta, ne vom preface că antrenăm din nou rețeaua și vom propaga înapoi rezultatele prin model în direcția opusă, obținând modificări de gradient ale modelului în raport cu intrarea inițială (în cazul imaginii noastre broaște) Așadar, creăm un nou tensor care privește aceste gradienți și înlocuiește + dacă gradientul este pozitiv și - dacă gradientul este negativ Aceasta ne oferă direcția de mers în care această imagine testează limitele soluției disponibile a modelului Apoi înmulțim cu un scalar mic (epsilon) pentru a crea o mască, pe care apoi o adăugăm la imaginea originală, creând un exemplu adversar A se vedea "Explicarea și valorificarea exemplelor adverse", Ian Goodfellow și colab ( ) (https://arxiv org/abs/ ) Capitolul • PyTorch în practică O V " V " Orez exemplu de broasca Iată o metodă simplă PyTorch care returnează tensorii Fast Gradient Sign Change Method (FGSM) ai pachetului de intrare dat eticheta pachetului, plus modelul și funcția de pierdere utilizate pentru a evalua modelul: def fgsm(input tensor, labels, epsilon= , loss function, model): ieșiri = model(input tensor) loss = loss function(ieșiri, etichete) loss backward(retain graph=True) fsgm = torch sign(inputs grad) * epsilon return fgsm Epsilon poate fi găsit de obicei experimental În timp ce am experimentat cu imagini, am descoperit că o valoare de , funcționează bine pentru acest model, dar puteți folosi și ceva de genul unei grile sau o căutare aleatorie pentru a găsi valoarea care transformă o broască într-o navă! Rularea acestei funcții pe broasca și modelul nostru ne va oferi o mască pe care o putem adăuga la imaginea noastră originală pentru a genera mostre de conflict Vezi ce s-a întâmplat în fig ! model to break = # încărcați modelul nostru pentru a sparge aici adversarial mask = fgsm(frog image unsqueeze(- ), batch labels, loss function, model to break) adversarial image = adversarial mask squeeze( ) + frog image Mostre de concurs O Orez Broasca noastră competitivă Evident, ochiul nostru încă percepe imaginea pe care am creat-o ca o broască (Dacă nu este cazul dvs , atunci este posibil să fiți o rețea neuronală Faceți imediat testul de empatie Voight-Kampf ) Dar ce se întâmplă dacă obținem o predicție din modelul din această nouă imagine? model to break(adversarial image unsqueeze(- )) # căutați etichete cu argmax() >> "pisica" Am învins modelul Dar este o problemă atât de mare pe cât pare la prima vedere? Bjask-Boh-ataca Poate ați observat că pentru a crea o imagine care să păcălească clasificatorul, trebuie să știm multe despre modelul folosit Avem toată structura modelului, precum și funcția de pierdere care a fost folosită la antrenamentul modelului, iar pentru a obține pante, trebuie să facem pase înainte și înapoi Acesta este un exemplu clasic de ceea ce este cunoscut în securitatea computerului ca un atac de tip cutie albă, în care putem să cercetăm orice parte a codului, să aflăm ce se întâmplă acolo și să-l folosim în avantajul nostru Deci contează? La urma urmei, majoritatea modelelor pe care le întâlniți online nu vă vor lăsa să priviți înăuntru Este cu adevărat posibil un atac b/ack-box atunci când tot ce ai este intrare și ieșire? Din pacate, da Să presupunem că avem un set de intrări și un set de ieșiri care să se potrivească Sfârșit de săptămână Capitolul • PyTorch în practică datele sunt etichete și puteți utiliza interogări țintă model pentru a antrena un nou model pe care îl puteți utiliza ca proxy local și atacuri cu casetă albă Ca și în cazul învățării prin transfer, atacurile asupra unui model proxy pot funcționa eficient pe un model real Suntem condamnati? Protecție împotriva atacurilor adverse Cum ne putem proteja de aceste atacuri? De exemplu, pentru a determina dacă o imagine este o pisică sau un pește, probabil că nu este sfârșitul lumii, dar pentru drone, aplicații de detectare a cancerului etc , poate însemna literalmente diferența dintre viață și moarte Apărarea cu succes împotriva tuturor tipurilor de astfel de atacuri este încă un domeniu de cercetare, dar cele mai importante până acum includ distilare și validare Metoda de distilare a unui model folosindu-l pentru a antrena un alt model pare să funcționeze Funcționează și utilizarea marcajelor netede cu noul model așa cum este descris mai sus A face modelul mai puțin încrezător în deciziile sale va ajuta la netezirea gradienților, făcând atacul bazat pe gradient mai puțin eficient O abordare mai eficientă este să ne întoarcem la unele dintre primele zile ale vederii computerizate Dacă controlăm datele de intrare, este posibil să putem preveni intrarea unei imagini adverse în modelul de imagine În exemplul anterior, imaginea de atac generată are câțiva pixeli care sunt complet diferiți de ceea ce ne așteptăm când vedem o broască În funcție de domeniu, s-ar putea să avem un filtru care permite doar imaginile care trec unele filtre Teoretic, ai putea forța rețeaua neuronală să facă același lucru, pentru că atunci hackerii ar trebui să încerce să pirateze două modele diferite cu aceeași imagine! Acum imaginile sunt cu adevărat gata Dar să aruncăm o privire la unele dintre evoluțiile care au avut loc în ultimii doi ani în rețelele de text Mostre de concurs Mai mult decât se vede: arhitectura Transformer Învățarea prin transfer a fost o caracteristică importantă care a permis rețelelor bazate pe imagini să devină atât de eficiente și răspândite în ultimul deceniu, dar textul a fost întotdeauna o nucă mai greu de spart Cu toate acestea, în ultimii ani, au fost făcuți câțiva pași importanți care dezvăluie posibilitățile de utilizare a învățării prin transfer în text pentru a efectua tot felul de sarcini, cum ar fi generarea, clasificarea și răspunsul la întrebări Am văzut, de asemenea, că un nou tip de arhitectură a început să fie în centrul atenției: vorbim despre rețeaua Transformer Aceste rețele nu au venit de la Cybertron, dar aceste tehnologii se află în centrul celor mai puternice rețele de text pe care le-am văzut vreodată: modelul GPT- de la OrenAI, lansat în , care demonstrează calitatea impresionantă a textului generat - atât de mult astfel încât OrenAI a păstrat inițial versiunea mare a modelului ascunsă pentru a preveni utilizarea acestuia în scopuri ilegale Vom trece peste teoria generală a Transformerului și apoi vom descoperi cum să folosim implementările GPT- și BERT ale Hugging Face Mecanisme de atenție Primul pas către arhitectura Transformer a fost mecanismul de atenție, care a fost introdus inițial în RNN pentru a ajuta la transformările secvență-la-secvență, cum ar fi traducerea Problema pe care am încercat să o rezolvăm cu atenție a fost dificultatea de a traduce propoziții precum "Pisica sa așezat pe saltea și ea toarcă" Tu și cu mine știm că ea (ea) în această propoziție se referă la o pisică, dar RNN este greu de înțeles S-ar putea să existe o stare ascunsă aici despre care am vorbit în capitolul , dar până ajungem la cuvântul ea A se vedea Neural Machine Translation prin învățarea în comun a alinierii și traducerii, Dzmitry Bahdanau și colab ( ) (https://arxiv org/abs/ ) Capitolul • PyTorch în practică (ea) vom avea deja mulți pași de timp și o stare ascunsă pentru fiecare pas! Deci, ce face atenția Se adaugă un set suplimentar de greutăți antrenabile atașate la fiecare pas de timp care concentrează rețeaua pe o anumită parte a propoziției Greutățile sunt de obicei trecute prin stratul softmax pentru a genera probabilitățile pentru fiecare pas, iar apoi produsul punctual al ponderilor atenției este calculat având în vedere starea ascunsă anterioară Pe fig Figura prezintă o versiune simplificată a acestui proces pentru propunerea noastră Greutățile asigură că atunci când starea ascunsă este îmbinată cu starea curentă, pisica devine partea principală a definiției vectorului de ieșire în pasul de timp pentru cuvântul ea, oferind un context util pentru traducerea, de exemplu, în franceză Nu vom intra în detalii despre modul în care ar putea funcționa atenția într-o anumită implementare, dar știm că conceptul a fost atât de puternic încât a început creșterea impresionantă și acuratețea Google Translate la mijlocul anilor Dar mai erau multe de urmat cuvântul curent Vector de atenție: [ , , , , , , , , ] Orez Vector de atenție care indică o pisică Mostre de concurs Tot ce este nevoie este atenție În articolul principal "Attention Is All You Need" , cercetătorii Google au subliniat că am petrecut tot acest timp atrăgând atenția asupra unei rețele deja lente bazate pe RNN (în comparație cu CNN-urile sau elementele liniare, oricum) Dacă nu am avea nevoie de RNN? Lucrarea arată că, cu codificatoare și decodore bazate pe atenție stivuite, puteți crea un model care să nu depindă deloc de starea ascunsă a RNN, ceea ce duce la Transformerul mai mare și mai rapid, care domină învățarea profundă bazată pe recunoaștere în prezent Ideea cheie a fost de a folosi ceea ce autorii au numit mecanismul atenției cu mai multe capuri paralelizează pasul de atenție în toate intrările folosind grupul de straturi Linear Din acest motiv, și împrumutând unele dintre tehnicile de conectare de la ResNet, Transformer a început rapid să înlocuiască RNN-urile pentru multe aplicații bazate pe text Două versiuni majore ale lui Transformer, BERT și GPT- , reprezintă stadiul actual al tehnologiei la momentul publicării acestei cărți Din fericire pentru noi, există o bibliotecă de la Hugging Face care implementează ambele soluții în PyTorch Poate fi instalat cu pip sau conda și va trebui, de asemenea, să clonați git depozitul în sine, deoarece vom folosi câteva scripturi utilitare mai târziu pip install pytorch-transformers conda install pytorch-transformers Mai întâi, să ne ocupăm de BERT BERT Modelul BERT (Bidirecțional Encoder Representations from Transformers) de la Google, lansat în , a fost unul dintre primele exemple de succes de aplicare a învățării prin transfer a unui model puternic în testare BERT în sine este un model masiv bazat pe Transformer (care cântărește milioane de parametri în cea mai mică versiune) pre-antrenat pe Wikipedia și setul de date Book-Corpus Problemă, https://arxiv org/abs/ Capitolul • PyTorch în practică cu care se confruntă în mod tradițional atât Transformerul, cât și Rețelele Convoluționale atunci când lucrează cu text este că, deoarece văd toate datele în același timp, le este dificil să învețe structura temporală a limbajului BERT se ocupă de acest lucru în faza de pre-antrenament mascând aleatoriu % din textul introdus și făcând modelul să prezică porțiunile mascate Deși simplă din punct de vedere conceptual, combinația dintre dimensiunea totală de de milioane de parametri din cel mai mare model cu arhitectura Transformer a dus la un nou nivel de performanță pentru o serie de evaluări legate de text Desigur, chiar dacă BERT a fost creat de Google cu TensorFlow, există și implementări pentru PyTorch Să aruncăm o privire rapidă la una dintre ele FastBERT Cel mai simplu mod de a începe să utilizați modelul BERT în propriile aplicații de clasificare este să utilizați biblioteca FastBERT, care combină depozitul Hugging Face cu API-ul rapid, ai (despre care veți afla mai multe când ajungem la ULMFiT) Poate fi instalat prin pir în modul obișnuit: pip install fast-bert Iată un script care poate fi folosit pentru a ajusta BERT pe setul nostru de date Twitter Sentimentl L-am folosit în capitolul : import torță import logger din pytorch transformers tokenization import BertTokenizer din fast bert data import BertDataBunch din fast bert learner import BertLearner de la fast bert metrics precizia importului device = torch device('cuda') logger = logging getLogger() metrics = [{'name': 'accuracy', 'function': accuracy}] tokenizer = BertTokenizer from pretrained ('bert-base-uncased', do lower case=Adevărat) Mostre de concurs databunch = = BertDataBunch([PATH TO DATA], [PATH TO LABELS], tokenizer, train file=[TRAIN CSV], val file=[VAL CSV], test data=[TEST CSV], text C =[TEST FEATURE COL], label col=[ ], maxlen col=[ ] , multi gpu = Fals, multi label = Fals) student = BertLearner from pretrained model(databuch 'bert-base-uncased', metrics, device, logger, is fpl =False, multi gpu=False, multi label=False) student fit( , lr='le- ') După import, setăm dispozitivul, loggerul și obiectele de metrică care sunt necesare pentru obiectul BertLearner Apoi creăm un BERTTokenizer pentru a tokeniza intrarea, iar în această bază vom folosi modelul bert-base-uncased (care are straturi și milioane de parametri) În continuare, avem nevoie de un obiect BertDataBunch care conține căile către seturile de date de antrenament, validare și control, unde putem găsi etichetele, dimensiunea lotului și lungimea maximă a intrării, ceea ce în cazul nostru este destul de simplu, deoarece poate doar să fie lungimea unui tweet, adică de caractere Acum trebuie să reglam modelul BERT folosind metoda BertLearner de la model preantrenat Ne transmite datele de intrare, tipul nostru de model BERT, metrica, dispozitivul și obiectele de înregistrare pe care le-am setat la începutul scriptului și, în sfârșit, câteva semnalizatoare pentru a dezactiva opțiunile de antrenament de care nu avem nevoie, dar nu sunt date implicit pentru metoda semnăturii În cele din urmă, metoda f it() este responsabilă pentru reglarea modelului BERT folosind propria buclă de antrenament internă În acest exemplu, antrenăm modelul pentru trei epoci cu o rată de e- Modelul antrenat PyTorch poate fi accesat ulterior prin intermediul Learner model Iată cum să începeți cu BERT Și acum la competiție Capitolul • PyTorch în practică GPT- În timp ce Google lucra în liniște la BERT, OpenAI lucra la propria versiune a modelului text bazat pe Transformer În loc să folosească mascarea pentru a forța modelul să învețe structura limbajului, modelul limitează mecanismul de atenție al arhitecturii pentru a prezice pur și simplu următorul cuvânt din secvență, similar cu RNN descris în Capitolul Ca urmare, GPT a rămas și a fost depășit de performanța impresionantă a BERT, dar în OpenAI a revenit cu lansarea GPT- , o nouă versiune a modelului care a actualizat bara pentru generarea de text Magia lui GPT- este la scară: modelul este antrenat pe text cu peste milioane de site-uri web, iar cea mai mare variantă de GPT- are , miliarde de parametri Și, deși încă nu face față BERT pentru lucruri precum întrebări/răspunsuri sau alte sarcini NLP, capacitatea sa de a produce text incredibil de realist din input de bază a determinat OpenAI să blocheze modelul de dimensiune completă de teamă că va fi folosit în rău Cu toate acestea, au lansat versiuni mai mici ale modelului cu și de milioane de parametri Iată un exemplu de ieșire pe care GPT- o poate genera Tot ce este scris cu italice a fost scris de M GPT- : Jack și Jill au urcat pe munte pentru o plimbare cu bicicleta Cerul era alb cenușiu și bătea vântul, provocând zăpadă abundentă A fost foarte greu să urc panta, a trebuit să mă aplec înainte și să fac un efort Dar apoi a venit un moment de libertate pe care nu îl voi uita niciodată: mi-am parcat bicicleta pe un versant de munte și am fost în mijlocul tuturor Nu am avut timp să spun un cuvânt, dar m-am aplecat în față și am atins frâne și bicicleta a plecat În afară de tranziția de la Jack și Jill la "eu", aceasta este o bucată impresionantă de generare de text Fragmente scurte de text nu se pot distinge uneori de textul generat de oameni Citind fragmente mai lungi de text generat, puteți recunoaște într-adevăr scrisul de mână al mașinii, dar este foarte impresionant și este posibil ca o astfel de mașină să scrie pe Twitter și să comenteze pe Reddit chiar acum Să vedem cum să facem asta cu PyTorch Mostre de concurs Generarea de text cu GPT- La fel ca BERT, lansarea oficială a OpenAI a GPT- este un model TensorFlow Hugging Face a lansat și o versiune de PyTorch, care este conținută în aceeași bibliotecă (pytorch-transformers) Cu toate acestea, ecosistemul în curs de dezvoltare a fost construit în jurul modelului original TensorFlow, care în prezent pur și simplu nu există în versiunea PyTorch Deci trișăm o singură dată: vom folosi niște biblioteci TensorFlow pentru a configura un model GPT- , apoi vom exporta greutățile și le vom importa în versiunea PyTorch a modelului Pentru a evita ajustările inutile, facem și toate operațiunile TensorFlow într-un notebook Colab! Să începem Deschideți un nou blocnotes Google Colab și instalați biblioteca gpt- -simple de la Max Woolf, care include configurarea GPT- într-un singur pachet Instalați-l adăugând următoarele în celulă: pip instalează gpt- -simple Apoi, aveți nevoie de text În acest exemplu, folosesc text din domeniul public din cartea de povești a lui P G Wodehouse De asemenea, nu voi mai procesa textul odată ce acesta este descărcat de pe site-ul web al Proiectului Gutenberg folosind wget: wget http://www gutenberg org/cache/epub/ /pg txt Acum puteți folosi biblioteca pentru antrenament Mai întâi asigurați-vă că laptopul este conectat la GPU (Runtime Change Runtime Type) și apoi rulați codul în celulă: import gpt simple ca gpt gpt download gpt (model name=" M") sess = gpt start tf sess() gpt finetune(sess, "pg txt",model name=" M", pași= ) Înlocuiți fișierul text cu fișierul pe care îl utilizați Când modelul este antrenat, va produce o probă la fiecare sută de pași În cazul meu, a fost interesant să văd cum se transformă de la un model care produce Capitolul • PyTorch în practică ceva asemănător scenariilor pieselor lui Shakespeare, în ceva care în cele din urmă se apropie de proza lui Wodehouse Sunt șanse ca antrenamentul pentru de epoci să dureze o oră sau două, așa că fă ceva mai interesant în timp ce GPU-urile cloud bâzâie Odată ce procesul este finalizat, scoateți ponderile din Colab în contul dvs Google Drive, astfel încât acestea să poată fi încărcate oriunde rulați PyTorch: gpt copy checkpoint to gdrive() În continuare, vi se va solicita să deschideți o nouă pagină web și să copiați codul de autentificare în notepad Faceți acest lucru și greutățile vor fi colectate și salvate pe Google Drive ca run tar gz Acum, pe instanța sau blocul de note în care ați lansat RuTorch, descărcați acest fișier tar și extrageți-l Trebuie să redenumim câteva fișiere pentru a face aceste greutăți compatibile cu reimplementarea GPT- Hugging Face: mv encoder json vocab json mv vocab bpe merges txt Acum trebuie să convertim greutățile TensorFlow salvate în compatibile cu RuTorch Există un depozit convenabil de pytorch-transformers pentru asta: python [REPO DIR]/pytorch transformers/convert gpt checkpoint to pytorch py gpt checkpoint path [SAVED TENSORFLOW MODEL DIR] pytorch dump folder path [SAVED TENSORFLOW MODEL DIR] Crearea unei noi instanțe a modelului GPT- se poate face în cod: din pytorch transformers import GPT LMHeadModel model = GPT LMHeadModel from pretrained([SAVED TENSORFLOW MODEL DIR]) Sau, doar pentru a vă juca cu modelul, utilizați scriptul gpt pi) pentru a obține un indiciu de unde să introduceți text și de unde să obțineți mostrele generate de modelul PyTorch: python [REPO DIR]/pytorch-transformers/examples/run gpt py model name or path [SAVED TENSORFLOW MODEL DIR] Mostre de concurs Antrenamentul GPT- va deveni probabil mai ușor în viitorul apropiat, deoarece Hugging Face include un API clar pentru toate modelele din depozit, dar cel mai ușor lucru de făcut acum este să începeți să utilizați metoda TensorFlow În acest moment, BERT și GPT- sunt cele mai populare rețele neuronale în domeniul învățării bazate pe text, dar înainte de a rezuma, să ne uităm la calul întunecat al modelelor moderne: ULMFiT ULMFiT Spre deosebire de giganți precum BERT și GPT- , ULMFiT se bazează pe vechiul RNN Aici există doar AWD-LSTM, o arhitectură creată inițial de Stephen Merity Această rețea, instruită pe setul de date WikiText- , s-a dovedit a fi transferabilă și, în ciuda vechiului tip de arhitectură, s-a dovedit a fi capabilă să concureze cu BERT și GPT- în domeniul clasificării În timp ce ULMFiT este în esență un alt model care poate fi descărcat și utilizat în PyTorch la fel ca orice alt model, casa sa este biblioteca fast ai, care se află deasupra PyTorch și oferă multe abstracții utile pentru a le înțelege și stăpâni pentru o muncă productivă rapidă cu învățare profundă Pentru a face acest lucru, ne vom uita la modul de utilizare a ULMFiT cu biblioteca fast ai folosind setul de date Twitter pe care l-am folosit în capitolul ca exemplu În primul rând, folosim API-ul Data Block al bibliotecii fast ai pentru a pregăti datele pentru reglarea LSTM: data lm = (TextList from csv(" /twitter-data/", 'train-processed csv', cols= , vocab=data lm vocab) split by rand pct() label from df(cols= ) databunchO) Acest cod este foarte asemănător cu metodele de ajutor torchtext din capitolul și pur și simplu face ceea ce fast ai numește un grup de date, de unde modelele și rutinele sale de antrenament pot obține cu ușurință date În continuare, creăm modelul, dar fast ai o face puțin diferit Apoi creăm un obiect de învățare, Capitolul • PyTorch în practică cu care interacționăm pentru a antrena modelul; nu interacționăm cu modelul în sine, deși îl transmitem ca parametru De asemenea, oferim un parametru de returnare (folosind valoarea sugerată în tutorialele fast ai): învățare = limbaj model learner(data lmJ AWD LSTM, drop mult= , ) Odată ce avem un obiect de învățare, putem găsi rata optimă de învățare similară cu implementarea din capitolul , cu excepția faptului că este încorporată în bibliotecă și utilizează o medie mobilă exponențială pentru a netezi diagrama, care în implementarea noastră are niște vârfuri destul de ascuțite : learn lr find() learn recorder plot() Din graficul din Fig După cum puteți vedea în Figura , e- este locul în care curba scade brusc, așa că vom alege acea viteză pentru antrenament Biblioteca fast ai a numit metoda fit one cycle, care folosește un programator de antrenament cu un singur ciclu (a se vedea resurse suplimentare pentru detalii) și o viteză foarte mare pentru a antrena modelul în mai puține epoci Orez Graficul ratei de învățare ULFiT Mostre de concurs Aici antrenăm modelul pentru un singur ciclu și menținem reglat partea superioară a rețelei (encoder) learn fit one cycle(l, e- ) learn save encoder('twitter encoder') După ce am terminat de ajustat modelul lingvistic (puteți experimenta cu mai multe cicluri de antrenament), creăm un nou grup de date pentru problema reală de clasificare: twitter classifier bunch = TextList from csv(" /twitter-data/", 'train-processed csv' cols= , vocab=data lm vocab) split by rand pct() label from df(cols= ) databunchO) Singura diferență reală aici este că furnizăm etichetele reale cu label f rom df și trecem obiectul vocab din antrenamentul modelului de limbaj pe care l-am făcut mai devreme, astfel încât să folosească aceeași conversie cuvânt în număr, iar apoi să putem crea un nou obiect text classif ier learner unde biblioteca creează modelele pentru tine Acum încărcăm codificatorul configurat în noul model și începem din nou procesul de antrenament: learn = text classifier learner(data clas, drop mult= ) learn load encoder('fine tuned enc') learn lr find() learn recorder plot() învață fit one cycle(l, e- , moms=( , )) Cu o cantitate mică de cod, avem un clasificator care spune o precizie de % Am putea îmbunătăți cu ușurință acest lucru prin antrenarea modelului lingvistic pentru mai multe cicluri, adăugând rate de învățare diferențiate și înghețând părți ale modelului în timpul antrenamentului, toate acestea fiind compatibile cu fast ai folosind metode definite pe obiectul de învățare Capitolul • PyTorch în practică Ce sa aleg? După această mică digresiune în modelele moderne de text de învățare profundă, probabil că aveți o întrebare: "Totul este grozav, dar pe care ar trebui să aleg?" În general, dacă lucrați la o problemă de clasificare, vă sugerez să începeți cu ULMFiT BERT este impresionant, dar ULMFiT concurează cu BERT în ceea ce privește precizia și are avantajul suplimentar de a nu fi nevoit să cumpere o cantitate mare de credite TPU pentru a obține cel mai bun rezultat Pentru majoritatea oamenilor, va fi suficientă o configurare ULMFiT cu un singur GPU În ceea ce privește GPT- , dacă aveți nevoie de text generat, atunci da, acesta este cel mai bun pe care îl puteți folosi, dar dacă doriți să rezolvați probleme de clasificare, atunci în acest caz vă va fi mai dificil să obțineți performanțe similare cu ULMFiT sau BERT Există ceva ce, după părerea mea, a fost interesant de încercat Puteți acorda GPT- o pauză la creșterea datelor; dacă aveți un set de date precum Sentimentl pe care l-am folosit în această carte, de ce să nu configurați un model GPT- pentru ei și să îl folosiți pentru a genera mai multe date? Concluzie În acest capitol, am acoperit lumea bogată a PyTorch, inclusiv biblioteci cu modele existente pe care le puteți importa în propriile proiecte, câteva abordări avansate de creștere a datelor care pot fi aplicate oricărui domeniu și mostre de conflict pe care le puteți distruge ziua modelului și cum să te protejezi de ele Sper că la sfârșitul călătoriei noastre veți înțelege cum apar rețelele neuronale și cum să treceți imagini, text și audio prin ele ca tensori Acum îi puteți antrena, crește datele, experimenta ratele de învățare și chiar puteți depana modele dacă nu funcționează corect De asemenea, le puteți împacheta în Docker și îi puteți face să gestioneze cererile din lumea exterioară Concluzia Unde să merg mai departe? Luați în considerare explorarea forumurilor PyTorch și a altor documentații de pe site Vă recomand cu siguranță să vizitați comunitatea fast ai chiar dacă nu intenționați să utilizați această bibliotecă; este un centru de activități prietenos pentru începători, plin de idei bune și oameni care experimentează noi abordări! A ține pasul cu cele mai recente progrese în domeniul învățării profunde devine din ce în ce mai dificil Cele mai multe articole sunt publicate pe arXiv (https://arxiv org/), dar numărul pare să crească aproape exponențial; când am scris această concluzie, a fost lansat XLNet (https://arxiv org/abs/ ), care este net superior BERT în rezolvarea diverselor probleme Nu se termină niciodată! Pentru a vă ajuta, am enumerat mai multe conturi de Twitter în care autorii recomandă adesea articole interesante Vă sugerez să vă abonați pentru a fi la curent cu lucrările interesante și actualizate, iar apoi s-ar putea să puteți utiliza un instrument precum rXiv Sanity Preserver (http://arxiv-sanity com/) pentru a beneficia și mai mult informații atunci când vă simțiți mai confortabil să vă scufundați în lumea învățării profunde În cele din urmă, am antrenat modelul GPT- pe o carte și ea ar dori să spună câteva cuvinte: Învățarea profundă este forța motrice cheie din spatele modului în care lucrăm cu aplicațiile de învățare profundă de astăzi, iar în viitor, învățarea profundă va continua să se extindă în noi domenii, cum ar fi clasificarea bazată pe analiza imaginilor, iar în NVIDIA a introdus arhitectura CUDA LSTM Arhitectura LSTM a devenit nu numai mai comună, ci și mai ieftină și mai ușor de implementat într-un fel în scopuri de cercetare, iar CUDA s-a dovedit a fi o arhitectură foarte competitivă pe piața de deep learning Din fericire, puteți vedea că există încă o mulțime de opțiuni de dezvoltare înainte ca noi, autorii, să rămânem fără muncă Dar poate poți schimba asta! Capitolul • PyTorch în practică Surse suplimentare ■ Cercetări privind tehnicile moderne de rezoluție ultra-înaltă, https:// arxiv org/pdf pdf ■ Ian Goodfellow Lectură despre GAN, https://www youtube com/watch ?v=Z rxFNMGdnO ■ You Only Look Once (YOLO), o familie de modele de detectare rapidă a obiectelor cu articole fascinante, https://pjreddie com/darknet/yolo ■ CleverHans, o bibliotecă de metode de generare adversară pentru TensorFlow și PyTorch, https://github com/tensorflow/cleverhans ■ The Illustrated Transformer, un tur cuprinzător al arhitecturii Transformer, http://jalammar github io/illustrated-transformer Câteva conturi de Twitter interesante: ■ @jeremyphoward - co-fondator al fast ai ■ @miles brundage - cercetător de politici la OrepAI ■ @BrundageBot - Un bot Twitter care generează zilnic un rezumat al articolelor interesante din arXiv (atenție: publică până la de articole pe zi!) ■ @pytorch - cont oficial PyTorch DESPRE AUTOR Ian Pointer este un inginer în știința datelor specializat în soluții de învățare automată (inclusiv deep learning) pentru mai mulți clienți Fortune Ian lucrează în prezent la Liicidworks, unde se concentrează pe aplicații avansate și dezvoltarea NLP El a emigrat în SUA din Marea Britanie în și a devenit cetățean american în DESPRE COPERTA Pe coperta acestei cărți apare o ciocănitoare cu cap roșu (Melanerpes erythrocephalus) Aceste păsări trăiesc în pădurile de câmpie din America de Nord și în savanele de pini Ei migrează în estul Statelor Unite și în sudul Canadei Ciocănitorii cu cap roșu nu au pene roșii atât de impresionante până când se maturizează Adulții au spatele și coada neagră, capul și gâtul roșii și pieptul și burta inferioare albe Ciocănitorii tineri au capul cenușiu Greutatea unei ciocănitoare adulte ajunge la - g, anvergura aripilor este de cm, iar lungimea corpului este de - cm Femelele pot depune patru până la șapte ouă simultan Se reproduc primăvara, producând până la doi pui pe sezon Masculii ajută la incubarea ouălor și la hrănirea puilor Ciocănitoarea cu cap roșu mănâncă insecte pe care le pot prinde în aer, semințe, fructe, fructe de pădure și nuci Ei obțin hrană pe copaci și pe pământ prin cizelarea caracteristică a suprafeței Pentru iarnă, ele ascund nucile în găuri și crăpături din scoarța copacilor Multe dintre animalele de pe coperțile cărților O'Reilly sunt pe cale de dispariție; toate sunt importante pentru lume Ilustrații de copertă de Susan Thompson dintr-o imprimare alb-negru luată de la Pictorial Miiseum of Animated Nature Jan Pointer Programare cu PyTorch: construirea de aplicații de învățare profundă Tradus din engleză de A Popov Manager editorial Manager de proiect Redactor principal Editor literar Editor de artă Corectori Aspect Y Sergienko M Kolesnikov K Tultseva M Mukhanova V Mostipan S Belyaeva, N Viktorova L Solovieva Fabricat in Rusia Producător: OOO Progress Book Locația și adresa actuală: , Rusia, Sankt Petersburg, pr B Sampsonievsky, A, camera Tel : + Data fabricatiei: Nume: producție de carte Termen de valabilitate nelimitat Scutire de taxe - clasificator de produse integral rusesc OK - , - Cărți tipărite profesionale, tehnice și științifice Importator în Belarus: PITER M LLC, , Republica Belarus, Minsk, st Timiryazeva, / , birou , tel /fax: Semnat pentru publicare pe Format x / Hartie offset Conv p l Tiraj Comanda CARTE-MAIL PUTEȚI COMANDA CĂRȚI DE LA EDITURA "PITER" ÎN ORICE MOD CONVENIBIL PENTRU DVS : • pe site-ul nostru: www piter com • prin e-mail: books@piter com • la telefon: ( ) - - PUTEȚI ALEGE ORICE METODĂ DE PLATĂ CONVENIENȚĂ PENTRU DVS : Ramburs la livrare cu plata la primire la cel mai apropiat oficiu postal Cu un card bancar În timpul comenzii, veți fi redirecționat către un server securizat al operatorului nostru, unde puteți introduce detaliile de plată Bani electronici Acceptăm Yandex Money, Webmoney și portofelul Qiwi pentru plată La orice bancă, prin tipărirea unei chitanțe, care se generează automat după ce plasezi o comandă PUTEȚI ALEGE ORICE METODĂ DE LIVRARE CONVENENTĂ PENTRU DVS : • Coletele sunt trimise prin Poșta Rusă Un sistem bine stabilit ne permite să organizăm livrarea cumpărăturilor dumneavoastră cât mai repede posibil Data și data livrării achiziției dvs livrarea va fi notificata prin e-mail • Puteți aranja livrarea prin curier a comenzii dumneavoastră (mai multe informații găsiți pe site-ul nostru www piter com) • Este posibilă aranjarea livrării unei comenzi prin dulapuri pentru colete (adresele dulapurilor pentru colete pot fi găsite pe site-ul nostru www piter com) CÂND PLASEȚI COMANDA, VĂ RUGĂM SĂ INDICĂ: • nume, prenume, patronim, număr de telefon, e-mail; • cod poştal, regiune, raion, localitate, stradă, casă, clădire, apartament; • titlul cărții, autor, numărul de exemplare comandate LIVRARE GRATUITA: • prin curier in Moscova si Sankt Petersburg pentru comenzi de peste de ruble • prin poștă rusă la plata în avans pentru o comandă în valoare de de ruble EDITURA EDITURA "PITER" oferă literatură profesională, populară și educațională pentru copii Cărțile pot fi comandate în vrac de la birourile noastre RUSIA Sankt Petersburg: stația de metrou Vyborgskaya, pr B Sampsonievsky, a tel /fax: ( ) - - , - - ; e-mail: sales@piter com Moscova: stația de metrou "Elektrozavodskaya", Semenovskaya emb , / , bloc , etaj tel /fax: ( ) - - ; e-mail: sales@msk piter com Voronej: tel : - - ; e-mail: hitsenko@piter com Ekaterinburg: st Toledova, d a; tel /fax: ( ) - - , - - ; e-mail: office@ekat piter com; skype: ekat manager Nijni Novgorod: tel : - - ; e-mail: yashny@yandex ru; skype: yashnyl Rosgov-pe-Don: st Ulyanovsk, tel /fax: ( ) - - , - - ; e-mail: peter-ug@rostov piter com Samara: st Molodogvardeyskaya, a, birou tel /fax: ( ) - - , - - ; e-mail: pitvolga@mail ru, pitvolga@samara-ttk ru BIELORUSIA Minsk: st Roza Luxemburg, ; tel /fax: + - - , - - ; e-mail: og@minsk piter com Editura "Peter" invită autorii să coopereze: tel /fax: ( ) - - , ( ) - - ; e-mail: ivanovaa@piter com Informații detaliate aici: http://www piter com/page/avtoru Editura "Piter" invită partenerii comerciali externi sau intermediarii care au acces pe piața externă pentru cooperare: tel /fax: ( ) - - ; e-mail: sales@piter com Comandă cărți pentru universități și biblioteci: tel /fax: ( ) - - , int ; e-mail: uchebnik@piter com Comandați cărți prin poștă: la www piter com; tel : ( ) - - , int ; e-mail: books@piter com Întrebări despre vânzarea cărților electronice: tel : ( ) - - , int ; e-mail: Kuznetsov@piter com 